Corpora of Yesterday, Today and Tomorrow

Korpusy včera, dnes a zítra

František Čermák

In Korpusová lingvistika II Výzkum a výstavba korpusů F. Čermák, ed. Praha 2011, 10-29.

Abstract

Corpora of Yesterday, Today and Tomorrow

The present outline of their typology, with an accompanying commentary, offers a guide to the several decades of the existence of corpora. Starting in the sixties of the 20th century with the Survey of English Usage for the creation of a new grammar and the Brown Corpus, the first obvious milestones can be detected. Moving into the period of contemporary corpora, their types show marks of differentiation based on size and means of acquisition, including those exploiting the Internet. For some of these, outstanding problems are still far from being solved, such as the diachrony-synchrony distinction, while spoken corpora are in need of adjustment; many of these are still distorted and contaminated by written-language features. Brief comments are offered regarding the notion of representative corpus set-up and reference is also made to parallel corpora and some of their features.

Against this background, a picture of the Czech National Corpus project is sketched, contributing to research and teaching in the field of corpus linguistics.

The future of corpora is outlined, essentially identifying features felt today to be desirable but still lacking, features which could offer solutions to such problems as mapping native speaker competence, improving the coexistence of grammar and lexis, and research into metaphor and potential language use.

1. Úvod.

Náš věk se někdy nazývá věkem informačním. Co to ale znamená? Povaha individuální a tedy nereprezentativní ale často i subjektivní informace pocházející z jednoho zdroje je zjevná a moc ji obvykle nevěříme, ale kolik výskytů takové informace je třeba, aby byla spolehlivá a věrohodná, resp. dostatečná? V minulé lingvistice to vždy záleželo u gramatiků na pár excerptech, která však nikdy neuzřejmovali, doplňovaných a zobecňovaných jejich intuicí; u slovníkářů to už tak snadno nešlo, a tak své produkty opírali o obrovské a celá desetiletí budované soustavy systematických excerpt. Zpřesněný počet kartotéčních lístků archívu ÚJČ, původně Kanceláře slovníku jazyka českého, který čerpal už z konce 19. století až do 50.-60. let století dvacátého, čítá 9,6 miliónů kusů; pak se excerpce zastavila, resp. nepřijatelně omezila. Pro srovnání velký Oxfordský slovník začínal před koncem 19. století už s kartotékou o cca 20 miliónech slov; její obohacování na mnohonásobky však pokračuje dodnes. V tomto případě šlo, resp. ještě někdy jde o týmovou, pracnou a manuální práci. Jednotlivec, jakkoliv pilný, byl naproti tomu nutně omezován jemu vyměřeným časem a byl schopný dosáhnout čísel a dat nutně mnohem menších (a to není řeč o kvalitě zaznamenaného kontextu). Až po válce se zjistilo, že slavný dánský lingvista Otto Jespersen po sobě zanechal archív o cca 400 000 excerpt, což byl zjevně jeden z osobních rekordů jednotlivce. Pro tehdejší slovníky (na zmíněné české bázi se postavily dva, na anglické jich postupně vzniklo víc), ale i lingvistiku (Jespersen na svých podkladech napsal řadu vlivných knih) se taková množství zdála obrovská a impozantní. Ale bylo to skutečně dost?

Dostatek informace, máme-li věci brutálně zjednodušit, máme tehdy, když se nám údaje pro studované jevy neúnosně obecně opakují, což ve většině případů nebyla v minulosti pravda. Jakkoliv si to v zásadě nepřipouštěli, trpěli včerejší lexikografové a lingvisté věčným pocitem hladu, informační nenasycenosti, což si uvědomujeme a říkáme nahlas až my dnes. Hlad po informacích je však všude ve vědě zásadní a stále neukojitelný a stejně tak je tomu i v lingvistice a ta v té době neznala lepší způsob, jak potřebné informace získat. Zásadní zlom sem však přinesly nečekaně počítačové korpusy, kdy vznik prvních počítačů, jakkoliv nebyly určeny primárně pro ně, se stal inspirací i pro řadu lingvistů, kteří v nich náhle rozpoznali nástroj, který jim chyběl.

Jakkoliv to ještě nedávno tak samozřejmé nebylo, dnes už dobře víme, že ve své podstatě je korpus krajně velký, zpravidla obecný a počítačově zpracovávaný zdroj informací o jazyce a skrze něj o všem, to jest všech tématech, kterých se týká, resp. může týkat; dosud se stále ozývá těžko udržitelná představa, že má být složený ze vzorků, která tomu odporuje. Korpus tak v podstatě nahradil a nahrazuje ještě nedávná a omezená manuální excerpta a lexikální archívy. Zdaleka tu ale nejde jen o zdroj informací pro lingvistiku, ale podle potřeby pro prakticky všechny další obory, čemuž staré archívy nikdy nesloužily. Dnešní význam názvu, jazykový korpus, zastiňující časem a přes nerozumné odmítání některých lingvistů všechny významy starší (střlat. corpus „tělo“), včetně historického, archeologického, diplomatického, vojenského, zákonodárného, biologického, medicinského, popř. autorského (soubor děl autoritativního jednotlivce), který však vždy označoval větší celek nebo soupis a představu jakohosi těla či tělesa volně zachovával, je však dnes zřejmě už zdaleka nejčastější. O korpus v tomto jazykovém smyslu se také postupně začínají zajímat zdánlivě paradoxně i zástupci těchto a řady dalších disciplín.

Sám korpus je tedy velkým, někdy až obrovským souborem dat, dnes zpracovávaným a vytěžovaným počítačově, který však stále a už od začátku zůstává v centru zájmu i jako východisko pro řadu pojmů a entit, které následně a teprve postupně vznikají a od něj se odvíjejí, především v důsledku potřeby ho rozumně zkoumat; je to bootstrapping ve vyšším smyslu, kdy potřeba si řekne o nové řešení, postup, nástroj. Pro lingvistu jde především o nový obor korpusová lingvistika, kterému dal počátek. Její pojetí, které se také vyvíjí, v zásadě navazuje na základní strukturalistické názory na jazyk (vnímá se takto jako jisté pokračování či modifikace osvědčeného strukturalismu) a dnes se rýsuje především i jako pojetí komplexní metodologie získávání a interpretace informací získaných z jazyka, protože staré cesty a způsoby už nestačí a selhávají.

2. Včera.

2.1 Začátky.

Začátky výstavby a vytěžovaní korpusu byly skromné a pomalé a vždycky byly dány a motivovavány touhou po lepším poznání jazyka a toho, o čem jazyk informuje, co sděluje a jakým způsobem; vždycky za nimi stáli významní lingvisté, nespokojení s dosavadním stavem poznání, ale jasným cílem a snahou o poznání lepší a hlubší. První korpusy a paralelně a postupně se s nimi rodící i korpusová lingvistika jako věda par excellence empirická přirozeně vznikaly v anglosaském prostředí. Angličan Randolph Quirk začal s řadou spolupracovníků a s cílem získat data pro výzkum a novou velkou gramatiku r. 1959 v podobě Survey of English Usage. Přes svou primitivní podobu (nahrávky a přepisy, digitalizované až později a pak známé jako LOB Corpus) je dnes vnímaný jako vůbec první korpus (1 milion slov v 200 vzorcích). V závěsu následoval r. 1961-3 v USA další jednomiliónový a na vzorcích založený Brown Corpus vytvořený naším krajanem Henry Kučerou a W. Nelson Francisem (známější se však stal až r. 1967 publikací Computational Analysis of Present-Day English). Málo známé však je, že vzápětí oslovili H. Kučeru i autoři dnes slavného a respektovaného American Heritage Dictionary (1. vyd. 1969) s žádostí o poskytnutí dat pro nový slovník s výslovným cílem jazyk popsat nejen tak, jak má vypadat, ale i jak se skutečně v praxi užívá; Brown Corpus tak zásadně přispěl ke vzniku prvního slovníku založeného na korpusu vůbec, reflektující živý úzus jazyka. Oba anglické korpusy se staly klasické a vedly jak k napodobování a soutěžení pozdější nabídkou korpusů větších, tak i mnohostrannému rozvoji výzkumu i započaté praxe. Důležitý a neopomenutelný tu však zůstává prvotní praktický impuls: potřeby gramatiky (epochální Comprehensive Grammar of English, R. Quirk et al.1985) a slovníku (zmíněný American Heritage Dictionary, který vznikl z nespokojenosti s nesolidností Webstera); zvláště v linii slovníků se pak navázalo řadou mimořádných děl na korpusu založených, ale to už je vlastně současnost.

Zde je třeba se ještě zmínit o zásadní a průkopnické korpusové studii o kolokacích, která vznikla za konzultace M.A.K. Hallidaye a pod vedením J. Sinclaira r. 1970, ale zůstala knižně nepublikovaná (bylo však ji možné v podobě mikrofiší si z Anglie vypůjčit); vyšla pod názvem OSTI Report až nedávno, tj. o 34 let později (2004). Celou tu dobu měla nesmírný a zcela zásadní vliv na řadu lingvistů a sloužila především jako inspirační zdroj pro to, co přišlo později.

3.2 Situace a okolnosti.

Na samém začátku bylo všechno nové, těžké a nevyzkoušené, i počítače byly teprve v plenkách, takže milionový korpus byl v polovině osmdesátých let stále obrovský úspěch. Neexistovala standardizace anotace korpusu, programovací jazyky byly prostší, nástroje vytěžování primitivní a bylo jich málo. S výjimkou obou velkých a obdivuhodných výstupů, tj. zmíněného slovníku a gramatiky, byly další výstupy malé, technické a nepřesvědčovaly ani lingvisty ani možné finanční zdroje o potřebě další podpory. Odborně situaci v USA zhoršovaly agresivní a netolerantní postoje dominantní generativní gramatiky i odmítavý postoj samotného Chomského, což byl taky důvod, proč se zájem o korpusy a korpusovou lingvistiky dál rozvíjel v tolerantnější Anglii. Jan Svartvik tuto dobu celkem trefně nazval dobou kamennou korpusové lingvistiky. Personálně je třeba si uvědomit, že na začátku žádní korpusoví specialisté neexistovali, ti se jaksi za pochodu rekrutovali z nadšenců pro novou věc, které pomáhali, jak mohli a uměli, pronikali postupně do jejích potřeb a stávali se až časem a později uznávanými odborníky. Všichni to byli napřed odborníci na jiná odvětví lingvistiky, korpusová lingvistika se měla jejich zásluhou teprve narodit.

Ještě horší byla situace s daty: elektronické texty k mání na začátku prakticky nebyly, mnohé se musely ještě manuálně přepisovat (což se dělá u korpusů mluvených dodnes). Brzo však začalo být jasné, že i těch dat, která k dispozici nakonec byla, je málo a je jich třeba stále víc. Mnohé zásadnější závěry o jazyce nebylo prostě možné získat na vzorcích a malém korpusu. Ukázalo se také, že jen psané texty nestačí, že nemůžou zastupovat jazyk celý, a že je třeba přihlédnout i k jazyku mluvenému. Navíc si tvůrci korpusu začali záhy uvědomovat i problémy sporné autentičnosti řady psaných textů v důsledku zásahů editorů, redaktorů a dalších jazykových oprávců, umravňujících, co se jim nezdálo, především autorskou variabilitu.

To, co se následné etapě a vlastně už dnešku jeví jako významné, ne však dodnes samozřejmé, tj. lingvistická anotace a taggování a další, mělo už v této etapě skromný začátek taky: Brown Corpus je anotován co do slovních druhů, Survey of English usage však mnohem víc, což se dnes málo reflektuje.

3. Dnes.

3.1 Etapy vývoje korpusů.

Období korpusového pokrývání a studia jazyka není delší než v zásadě 50 let. Lze ho dělit různě, mj. i podle způsobu získávání, dostupnosti a rozsahu dat (Bonelli-Sinclair) a pak lze uvažovat o třech etapách:

1. léta 60.-80.: učednická léta, kdy se získávala a ověřovala zkušenost s tím, jak korpusy, v zásadě jednomiliónové, budovat (viz v zásadě 1. Včera výše)

2. léta 80.-2000: období získávání dat prvními skenery pro korpusy do rozsahu cca 20 miliónů slov (80. léta), později (90. léta) nahrazeno texty z elektronické sazby, kdy se nabídlo víc možností a narostl rozsah, v některých případech na jeden nebo několik stamiliónů slov

3. 2000 a dál: období, kdy se do korpusu poprvé dostávají i texty nikdy netištěné, mj. z Internetu, rozsah korpusů roste, v poslední době do miliard (Mannheim, Praha aj.)

V následujícím si všimneme stručně především etapy druhé a třetí, tedy zhruba toho, co lze řadit v širším smyslu pod název Dnešek, a to v zásadě pouze z hlediska korpusově orientované lingvistiky, přestože širších souvislostí a vlivů je víc. Jejich poznávacím znamením se stále výrazněji stává, že se korpusy i u těch největších staromilců začínají kvůli s ničím v minulosti nesrovanatelným datům začínají brát vážně, lingvistika se v důsledku nového korpusového poznání jazyka zásadně přeorientovává a uznání, které si korpusy získávají, se projevuje i na lepší dotační politice, aspoň někde. V mezinárodním měřítku je dnes minimálně v Evropě těžké najít jazyk, kde by nějaký korpus nebyl a korpusy se usilovně budují i mimo ni (vedle japonštiny a čínštiny třeba i pro malajštinu, indické jazyky či xhosa aj.). Korpusy už zdaleka nejsou nějakou módou či zbytečností, jak se na začátku někteří domnívali (nicméně svůj nadutý a neprozíravý odsudek N. Chomsky nikdy neodvolal), a jejich potřebnost a užitečnost se bere jako samozřejmost.

3.2 Korpusy a jejich typy.

Úroda nejrůznějších korpusů (zpočátku zvláště menších) je velká a závisí v zásadě na cíli a potřebě. Nicméně ty hlavní typy lze nazírat podle víceméně známých čtyř os:

1. Jazyková synchronie-diachronie:

Jakkoliv se začínalo a začíná od nejpotřebnějšího poznání jazykové synchronie, postupně se v různých jazycích přistupuje (za nemalého technického úsilí se získáváním textů) i k mapování diachronie. Zásadní problém, kde vést hranici mezi obojím, zůstává, a měla by ho řešit propracovanější metodologie jazykové recepce (de Saussure: synchronní je to, co je mluvčími vyciťováno jako živé). V zásadě platí, že v případech cílů systematického korpusového mapování relativně celého jazyka, se časem nejstarší fáze synchronního

korpusu přehodnotí a plynule přesunou do diachronního korpusu. Je však třeba si znovu a znovu připomínat, že oproti minulosti, která je textově uzavřená a lze ji teoreticky korpusem pokrýt celou, nelze mít synchronní korpus nikdy úplný; korpus takto není a nikdy nebude obrazem celého jazyka, ale jen takovým obrazem (na rozdíl od webu), který je zdaleka nejvěrnější a nejlepší.

2. Jazyk psaný-jazyk mluvený:

V kontrastu k celé minulé lingvistice, založené na jazyce psaném, se tady poprvé nabízí v podobě mapovaného jazyka mluveného možnost historickou nerovnováhu mezi reflexí obou forem jazyka vyrovnávat a danou křivdu na jazyku začít odstraňovat; ukáže se bez jakékoliv pochyby, že všechny naše dosavadní příručky (zvláště gramatiky) platí jen částečně či neplatí vůbec. Jazyk je celek a tím není pouze jazyk psaný, jak nás o tom dosud přesvědčuje minulost jeho popisů a postojů k němu, zvláště postojů spisovnických takový popis zužujících. Je třeba reflektovat fakt, že většina naši komunikace je orální, a ne psaná a že dokonce některé jazyky zůstávají dodnes bez grafického záznamu, písma. Jinými slovy, všechny jazyky se mluví, ale jen některé se i píšou, jakkoliv nikdy ne většinově ani pouze spisovně; ani čeština není výjimkou. Naproti tomu není znám živý jazyk, kde by se lidé vyjadřovali primárně písemně a mluvili jen málo, nebo vůbec. Nerovnováhu danou nerespektováním těchto ohledů je třeba vyrovnat.

Mezi oběma mody jazyka a korpusů je více rozdílů. Vedle rozdílu časového (který pro jazyk mluvený neexistuje, diachronní mluvené korpusy nejsou v zásadě možné) se pro korpusy psaného jazyka často mluví o ne/reprezentativnosti (viz dál 3) či specifičnosti (viz dál 3), v zásadě se sem však různě může promítat i aspekt normativnosti. Ta se v minulosti orientovala na úzus dobrých, vzorových autorů, což je přístup už dnes neudržitelný a nerealizovatelný (jak se pozná dobrý autor? podle počtu prodaných výtisků?). V dnešní době nejde ani tak o normativnost, kterou nám pomýleně stále někdy vnucuje přežívající teorie spisovnosti, ale o normativnost novou, danou převažujícím územ: často se tu mluví proto o typičnosti úzu, která se hodí pro autory učebnic a slovníků, ale pro krasoduchy už méně.

Před zařazením do korpusu a zveřejněním psané texty procházejí řadou procedur (standardizace, výběr podle kritérií plánu a celkového designu, často složité a různé konverze, potřebné filtrování cizostí, bibliografická anotace, taggování a lemmatizace aj.), které lze do značné míry, byť ne vždy, automatizovat.

Pro taggování platí tři zásadní pravdy: (1) vždy odráží jen určitou jazykovou teorii svých tvůrců a je tedy relativní (a jiní lidé můžou mít na pojetí a označení dat jiný názor) a data tedy svou interpretací tak vlastně zjednodušují a deformují; (2) nikdy nebude úplné a zcela bez chyb (při automatickém přístupu k tak velkým datům to jinak není možné); (3) nikdy zcela nevytlačí prosté neoznačkované korpusy, které jediné uchovávají relativně autentický text bez vnášené interpretace.

Pro obecný jazyk mluvený, kterým je většinový neformální jazyk, odlišný od krajových i sociálních extrémů (geografických a sociálních dialektů), platí, že prototypicky je tu známý mluvčí i adresát a obvykle i situace promluvy, což pro jazyk psaný v zásadě neplatí. Umožňuje proto mnohem lépe výzkum situace, způsobů mluvy účastníků ve specifických situacích aj. Jedním z významných důsledků je i zvýšená možnost studia pragmatiky, zvl. v oblasti evaluace.

Zatímco u synchronních psaných korpusů je dnes v zásadě dat relativní dostatek (omezení v jejich dostupnosti je ovšem různě velké), akvizice dat mluvených, jde-li o prototypická data dialogická, je mnohonásobně obtížnější a v zásadě manuální; neméně pracné je další následné zpracování začínající přepisem, resp. volbou transkripce. Proto také nejsou k dispozici velké korpusy prototypických mluvených textů v žádném jazyce a ty, které známe (část BNC a korpus nizozemský), jednak nepřesahují 10 miliónů a jednak nejsou prototypické, protože zahrnují např. mluvené přednášky, rozhlasové pořady apod., což nejsou akustická data, která by byla výlučně a jasně pouze mluvená; jsou smíšená.

Obecně tedy platí, že oportunistická data, ať už psaná či mluvená, tedy jakákoliv data získaná v zásadě náhodně a bez předem stanovených kritérií, za lingvistický korpus považovat nelze, což platí i pro korpusy internetové. Lingvistickým se zde míní takový korpus, který umožňuje vyvážené a reprezentativní zkoumání relativně celého jazyka, nikoliv jeho části, často v nezdůvodněných proporcích.

3. Jazyk reprezentativní-jazyk specifický-jazyk oportunní:

U obou modů jazyka a tedy i korpusu psaného a mluveného se často uvažuje o potřebě dosáhnout jeho reprezentativní podoby. Jakkoliv si ani u velkých slovníků či gramatik minulosti tuto otázku nikdo nekladl a bývala v zásadě obecně chápána s mlčenlivým předpokledem, že se hodí pro každého, a tedy i celou komunitu, jisté slabé uvědomění potřeby diferencovat podle cílového uživatele se časem objevilo, zvláště pod nálepkami školní, pro školy apod. U nich však šlo o produkty aktivity lingvistů, spočívající v omezení výběru materiálu, což u korpusů možné není: nelze centrálně vybírat data jen pro školní děti či starší ženy a sestavovat takto korpusy; vybírat podle druhu textů dost dobře v tomto smyslu možné není taky.

U korpusů se reprezentativnost dnes chápe jako orientace, zacílení na uživatele buď zcela obecné, anebo zvláštní. V prvním případě (1) lze mít za to, že uživatelem bude kdokoliv a primárním cílovým výstupem, pokud vznikne, bude obecný jazykový slovník. V druhém případě (2) se reprezentativnost korpusu zúžuje na receptory mající zájem pouze o určitý typ jazyka, ne o jazyk celý. V obou případech však je třeba získat obecnou představu o proporcích uvnitř recepce jazyka, tj. o kvantifikovaných poměrech mezi typy textů užívaných různými uživateli. O tento cíl se pokouší málokdo, česká lingvistika svými sociologickými průzkumy čtenosti přímo u uživatelů však ano (Čermák, Králík, Kučera 1997); první výzkum mezi uživateli následoval výzkum orientovaný na zjišťování proporcí čtenosti v zásadě podle výše nákladu časopiseckých, popř. knižních vydání textů (Králík Šulc 2005), který vedl ke vhledu především v proporcích textů mezi různými obory (kde se mj. skrývá nejvíc terminologie). Výsledky výzkumů se promítají do proporcí zastoupení korpusových textů.

V raných fázích vzniku větších korpusů byla obecná představ koncipovat korpus také v proporcích odpovídajících, oproti recepci (za kterou se skrývají v zásadě čtenáři jako pasívní uživatelé jazyka), i produkci (za kterou se skrývají autoři a tedy aktivní tvůrci textů). Nikomu se však nepodařilo odpovědně zjistit poměr obojího a tak se od této distinkce v zásadě upustilo (s výjimkou dánského korpusu).

Reprezentativnost jazyka mluveného takto pojímat nelze, nelze zjistit proporce jednotlivých typů promluv, natožpak je jasně definovat; je tu mnoho vágnosti, vnášených sem mj. vágností stylistického pojetí žánrů a pod. Na druhou stranu je však jasné, že je-li neformální spontánní dialogický rozhovor mezi přáteli nepochybně nejtypičtějším, prototypickým zástupcem mluveného jazyka (jeho získání je přitom nejnáročnější), je např. akustický záznam oficiálního projevu významného politika mluveným žánrem jen těžko, jde o pouhé přečtení toho, co bylo napsáno předem a mnohokrát korigováno a mluveného na takovém textu není, kromě akustické formy, prakticky nic. Někde mezi tím lze pak hledat různé stupně více či méně mluvených textů a stanovit jejich typologii (viz blíže Čermák 2009). Akvizice některých typů, resp. mezitypů textů mezi jazykem mluveným a psaným, např. záznamy rozhlasu, není nikterak těžké získat, jazyk mluvený to však zcela není; budovat takové korpusy pak nemá velkou cenu dříve, než si uvědomíme, co od nich můžeme očekávat a jaký je konkrétní mix aspektů psaných a mluvených v jednotlivých případech, který se tu nabízí.

Poměrně dobře už pokročily způsoby propojování původní akustické formy korpusu s jeho grafickým přepisem, ale jen jedním směrem (při zkoumání a hledání), tj. od písma ke zvuku, jakkoliv začínají být k dispozici už i automatizované možnosti přepisu.

Výše naznačená možnost korpusů zachycovat jazyk specifický různého typu, například terminologický, podle určitých žánrů (pokud nám stačí mechanické zařazení dnes užívané), se dá realizovat dvěma způsoby. Buď (A) lze budovat specifický korpus např. nějaké terminologicky zajímavé oblasti (a zpracovávat ho pro její uživatele), což je pracné i když možné (v minulosti takové malé specializované korpusy vznikaly, jakkoliv pro její nesmírný rozsah a další problémy se např. na chemii nikdo neodvažuje a zřejmě neodváží), anebo lze pracovat (B) metodou virtuálních speciálních korpusů, resp. subkorpusů, opírající se o volbu žánru a příslušných textů v obecném korpusu velkém (ve smyslu 1 výše). Omezení a problémy jsou tu zřejmé. Je přitom jasné, že takto lze uvažovat v zásadě pouze u korpusů psaných.

O korpusech oportunistických (oportunních) už byla zmínka výše (2), valnou cenu pro odpovědnou lingvistickou práci nemají a sází se u nich problematicky, podobně jako u korpusů stažených z webu, na to, že velké množství dat nějak zajistí i zastoupení všech žánrů, jevů a aspektů jazyka, ne už však jejich proporcí.

Dodejme ještě, že do oblasti mluvených korpusů v zásadě patří i korpusy dialektické (nářeční), protože psaných nářečních textů je málo. Jejich problém je v zachycení dnešních dosud žijících mluvčích, které většinou chybí; za dialektická data se bohužel často vydávají ta, jejichž povaha je už aspoň zčásti diachronní.

Ojedinělé pokusy o multimodální korpusy, spojující psané slovo s mluveným a obrazem v pohybu a umožňující do jisté míry i popis situace, gestikulace a mimiky, jsou přes svou ojedinělost stále jen zbožným přáním. Chybějí tu jak data tak metodologie výstavby a jejich studia a seriózní a reprezentativní pokrytí jazykové reality, obdobně jako u psaných korpusů, se ani neuvažuje.

Stará idea, že stačí vybudovat rozumně velký vyvážený korpus, skrze který se bude z nových dat odfiltrovávat vše, co je už zachycené, a registrovat jen nové (monitorovací korpus), se nikdy nerealizovala. Byla příliš svázána jen s evidencí jednoduchých forem a nikoliv jejich kombinací, už vůbec pak ne se změnou významu, která se automaticky zatím zachycuje velmi špatně.

4. Jazyk jeden-víc jazyků: mono-bi-multi-

Vedle dominantních korpusů monolingvních nabývají na důležitosti korpusy bilingvní a multilingvní umožňující komparaci jazyků v podobě lexémů i celku. Na rozdíl od srovnatelných korpusů dvoujazyčných (tvořených jen texty stejného žánru a tématiky) vycházejí z existence překladů realizovaných a dostupných mezi dvěma či více jazyky (paralelní a multiligvální korpusy jako soubor korelovaných korpusů paralelních). Největší obecný multilingvní korpus má v současné době čeština (InterCorp; specializovaných korpusů pro jiné jazyky je ale více).

Pro pochopení pozadí a nejen praktického smyslu jejich vytváření je třeba si připomenout, že lingvisticky často těžko řešitelný problém výkladu, vysvětlení významu lexému apod. v jednom jazyce, který je závislý na užitém metajazyku a taková explikace je tedy v zásadě vždy v nějakém stupni tautologická, se řeší poukazem na ekvivalent v jazyce jiném, tedy překladem. Existence ekvivalentu, ať už je jeho kvalita diskutabilní často také, je pak zárukou, že význam tímto specifickým způsobem zachytit možné je. Mnohá teoretická i praktická využití a aplikace existence paralelních či multilingvních korpusů jsou nasnadě.

Jde-li u paralelních korpusů především o vyrovnané texty v obou jazycích a jejich vyváženost, jde u vícejazyčného korpusu už spíše o jeho celkový design, který je závislý, vedle dostupnosti překladových textů, i na respektování dalších jednotících parametrů, jako je uzavřená časová epocha či žánr; většinou pak to bývá beletrie. Na této úrovni se tak otevírá možnost srovnávání více než jen dvou jazyků, které dosavadní lingvistika dosud postrádá.

3.3 Co jde spolu s výstavbou korpusů: aneb korpus není jen naházení textů na hromadu.

Ideu korpusu, která se odvíjí od potřeby a cíle, je možné rozumně naplnit jen na základě realistického designu a plánu, beroucího na jedné straně v úvahu dostupné zdroje datové i finanční, a na druhé straně i nutnost nashromážděná data zpracovat a zpřístupnit. Ani jedno není triviální a ani pro jedno není precedens, o který by se dalo opřít. Zdroje, cesty a způsoby bylo a je třeba nalézat postupně, cestou zkoušek a omylů, ale nakonec často i úspěchu.

Data, jakkoliv se dnes snad už veškeré tiskoviny sázejí elektronicky, samozřejmá nejsou, jsou vázána copyrightem a ze strany tvůrců korpusu, pokud se uvolí je dát k dispozici, smlouvami o jejich nešíření. Často jsou však zdroje nedostupné, protože autorská práva si koupily komerční společnosti, což je v zahraničí stále častější případ. Jen v případech nevázaných na copyright, tj. u dat starších (aspoň 70 let od smrti autora), lze s psanými daty relativně volně disponovat, což je případ především diachronie. Tam však je naopak třeba primárně zase počítat s tím, že data se musí napřed naskenovat, tj. dostat do elektronické podoby. U mluvených dat copyright sice v daném smyslu neexistuje, ale nahrávky se standardně pořizují jen se svolením autora, který může mít k tomu určité výhrady a požadavky, například na anonymizaci jmen.

Nemalá finanční podpora, kterou u velkých korpusů přejímá velký a finančně zdatný podnik, např. nakladatel či jejich konsorcium, anebo, jako v českém případě, stát (v posledních letech ministerstvo školství v podobě výzkumných záměrů, které je třeba získat v soutěži), je nutná. Výstavba velkých korpusů, která je mnohaletá a musí být nutně kontinuální kvůli neustálé potřebě dat, jejich proměně a nutnosti jejich mapování, obvykle vyžaduje si získat nebo vychovat specialisty, kteří se této činnosti a činnostem návazným věnují monopolně.

O designu a reprezentativnosti korpusu byla už řeč výše (3). Má-li vzniknout obecně, tj. pro většinu běžných účelů (a tedy např. i lexikografii), korpus jako zdroj užitečný pro většinu lingvistických potřeb, bude reprezentativní, resp. podle zdůvodněných proporcích vyvážený tak, že bude optimálně odrážet celou jazykovou realitu i její proporce. Je to nesnadný a nezcela vyřešený úkol a lze tu najít rozmanité přístupy; pro jeho nesnadnost mnozí proto sklouzávají k řešením snadnějším, spočívajícím v hromadění těch dat, která jsou snadno či snadněji dostupná a tedy v podstatě se blížící korpusům oportunistickým.

Získaná data (původně elektronická či až naskenovaná) se musejí podle potřeby zpracovávat v řadě formálních kroků. Vedle konverze do jednotného formátu (z mnoha dostupných formátů), případného filtrování (zvl. cizojazyčných větších úseků či (skoro)duplikátů) se nakonec převádějí do podoby mezinárodního standardu a formátu XML (Extensible Markup Language nahrazující starší SGML), který dodává textu jednotnou strukturu včetně anotací; užívají se v něm i ty značky, které si uživatel zadává podle potřeby sám.

Spolu s takovouto technickou a automatickou úpravou textů se realizuje manuálně věcná klasifikace textů podle žánru a textového typu, často do více úrovní a podtypů, která se propojuje s automatickou bibliografickou databází a nakonec i formátem XML.

Po sestavení a proporčním vyvážení hotového korpusu se korpus nabízí uživatelům prostřednictvím korpusového manažeru. V českém prostředí se po kratším užívání německého softwaru ze Stuttgartu (IMS Workbench) přešlo na český systém Manatee-Bonito (který se však dál už příliš nerozvíjí); známý je např. i britský systém Xaira užívaný pro BNC, nebo polský Poliqarp aj.

Vytěžování korpusu záleží na možnostech, které korpusový manažer nabízí. Jakkoliv v základu je vždy možnost vytvářet seznamy tvarů, popř. lexémů se statistikami, zásadní a nejčastěji užívané jsou především konkordance. Konkordance je starší termín užívaný už v raném novověku především pro soupisy vybraných výskytů důležitých výskytů religiózně důležitých slov bible. Už tyto soupisy měly podobu nějak uspořádaných řádků (napřed ne nutně abecední, ale řazené i věcně). Po jejich rozkvětu se jejich obliba z Itálie šířila právě do Anglie, kde jich vzniklo více, a později i do Německa a jinam. Až v korpusové době se konkordancí myslí soupis všech nebo početně či jinak vymezených výskytů hledaného tvaru, jeho kombinací či lemmatu v kontextu, zpravidla alfabetizovaných. Každý konkordanční řádek se vlastně rovná excerpčnímu lístku starých archívů. Akcentem na kontext, pružně modifikovatelným, se nabízí poprvé možnost studovat užití slov a jejich tvarů a tedy systematicky i jejich syntagmatiku.

Kombinace některých tvarů však byla odedávna známá jako ustálená (napřed idiomy a víceslovné termíny) a začala pod názvem kolokace po první zmínce J.R. Firthe budit pozornost; větší zájem o ní poprvé v Japonsku po válce projevil lexikograf H. Palmer. Až r. 1970, tedy už právě v době vzniku prvních korpusů, se spojil zájem jiných Britů, M.A.K. Hallidaye a Johna Sinclaira, a pod vedením Sinclaira vzniká v tomto roce na počítači první velká a zásadní studie kolokací jako takových. Zpráva o tomto výzkumu, který zůstal šíře dlouho neznámý, se ale stávala postupně známou a ve své oblasti měla a má nesmírný vliv dodnes, známá je pod knižním názvem jako OSTI Report až od r. 2004.

Výkonný korpusový manažer (browser) byl a je nástroj týmový a institucionální. Avšak řada lingvistů cítila potřebu i skromnějšího, třeba jednoduššího nástroje, se kterým by zpracovávala svá data doma, na svém počítači. Vedle řady dnes volně dostupných konkordancerů se tak objevily i první velmi užitečné nástroje (zpravidla komerční) nabízející někdy i možnosti, které velký manažer nemá. K takovým patří zvl. WordSmith Mike Scotta a jeho specialita hledání key-words, tj. sémanticky, obsahově klíčových slov pro daný text, popř. korpus; odtud i Scottův pojem aboutness, tj. vlastnost typická pro tato klíčová slova; podobně komplexní je nekomerční CorpusPresenter (R. Hickey). Pozoruhodný je i MonoConcPro či Collocate (Michael Barlow), volný AntConc a AntConcProfiler a další (L. Anthony); v oblasti paralelních korpusů pak ParaConc (M. Barlow) a další. Většina těchto nástrojů, vycházející v různých přístupech z asociačních měr (nejznámější jsou zřejmě MI-score, T-score a log-likelihood) a poměřujících frekvenci výskytu hledané formy v dané kombinaci s frekvencí samostatnou v širším celku korpusu a podobně, se užívá k získání různého typu kolokací. Žádná z nich však zatím neumí výlučně najít třeba pouze frazémy či jen termíny nebo víceslovná propria aj.

Většinová orientace zachycování dat v korpusu pomocí manažeru či jiného softwaru se až dosud upírá bohužel jen na výskyty samostatných jednotlivých forem, tvarů lexému (token, při jejich opakování se mluví o typu), po zavedení lemmatizace pak i na podobu jejich jednoslovných lemmat. Vzhledem k tomu, že kombinací a kolokací je v jazyce nesporně více než izolovaných a nespojitých užití izolovaných tvarů lexémů, je to povážlivý nedostatek, na který se už dlouho upozorňuje. Až nověji se jeví větší soustředěná snaha se víceslovným kombinacím věnovat systematicky, zvláště v iniciativě multiword expressions (viz jeden z nástrojů k jejich identifikaci mwetoolkit), kde je mj. velmi aktivní statisticky orientovaný lingvista Ted Pedersen, známý řadou dalších nástrojů (např. NSP, N-gram Statistics Package). Mnoho nástrojů i v této oblasti začíná být dnes volně dostupných v rámci iniciativy Open Source na webu. Známý je tu i komerční nástroj Word Sketches (A. Kilgariff).

3.4 Standardy a zdroje korpusových dat.

Z množství mezinárodních standardů ISO je pro naši oblast významný zvlášť soubor norem TC 37/SC 4 (Language resource management). Specificky lingvistické jsou dnes mezinárodní zásady konsorcia TEI (Text Encoding Initiative), zásady pro znázornění textů v digitální podobě (zvláště v humanitních oblastech) konsensuálně užívané v dané oblasti ve většině zemí, které se staly standardem. TEI ustaluje a zavádí na 500 prvků (typu slovo, věta, grafém, osoba aj.) užívané dnes především ve značkovacím jazyce XML (viz výš).

Korpusová data však nebývají volně a snadno dostupná. Vedle vlastních korpusů, do jejichž tvorby investuje značné úsilí vždy příslušný tým jeho tvůrců, se mnoho dat také obchoduje, často za nemalé peníze. Dvě nejznámější mezinárodní organizace v této oblasti jsou americké LDC (Linguistic Data Consortium) a evropské ELDA (Evaluation and Language Resources Distribution Agency, součást širší ELRA); nárůst dokumentů, popř. tématických souborů apod. pro nejrůznější jazyky, které lze odtud získat, je v nich obrovský (statisíce ročně) a hodí se pro řadu typů spíše dílčího výzkumu.

Z velkých současných korpusů jich zde lze připomenout jen pár. Ve Velké Británii po modelovém Britském národním korpusu (BNC, 100 mil.), podle kterého se i většina cizích korpusů podobného typu dnes jmenuje národní, vznikal v Birminghamu Bank of English (v roce 2005 měl 525 milionů), který se později stal součástí většího a už i na Internet přeorientovaného Collins Corpus (2,5 miliardy); vedle něj je známý i další velký a webově založený Oxford English Corpus. Pro americkou angličtinu je vedle stále nedokončeného American National Corpus (100 mil, podle vzoru BNC) dnes nejdůležitější COCA (Corpus of Contemporary American English, 410 mil., autor M. Davies). Kromě BNC není žádný z nich reprezentativní.

Známý je také už starší, ale stále doplňovaný specificky literární francouzský korpus Frantext, zachycující literární francouzštinu více století (před 4000 textů). Pro němčinu je dnes hlavní nereprezentativní německý korpus DeReKo (Deutsches Referenzkorpus), vzniklý spojenými silami více institucí (dnes má přes 4 miliardy slov), z nichž nejvýznamnější a nejstarší je korpus v Mannheimu (taky známý jako Cosmas). Velké korpusy z dalších evropských jazyků lze nalézt i pro polštinu, ruštinu, slovenštinu, slovinštinu aj.

3.5 Korpusová lingvistika jako obor.

Existence korpusů a rostoucí expertíza a specializace jejich tvůrců i dalších lingvistů vedla přirozeně ke konstituování nové větve lingvistiky, dnes už široce respektované korpusové lingvistiky, která se oddělila od starší komputační lingvistiky, jakkoliv s ní má mnoho styčných aspektů. K největším a nejvlivnějším jménům zde patří především John Sinclair ale i další a mladší jako Michael Stubbs, Tony McEnery, Douglas Biber aj. Je to výrazně empiricky založená lingvistika, respektující vždy primárně data, která se snaží v zásadě a v jádru jazyk popisovat deskriptivními metodami strukturalistickými. Výrazná a v zásadě nová možnost prohloubené pozornosti sémantice a kontextu je tu signifikantní. To umožňuje studovat i jevy donedávna nestudované, především ty, které pokrývá název syntagmatické, kombinatorické. Základní a výchozí studium kolokací pomocí asociačních statistických metod, které se rozvíjí nejvíc, vyvolává přirozeně zájem nejen o specifické kolokace jako jsou frazémy a idiomy, ale i souvýskyty jiných forem než jsou jen slovní tvary (např. studium koligací, tj. výskytu v zásadě kategorií, je umožněno dnes tagováním).

Korpusová lingvistika svým bezkonkurenčním rozsahem dat, která studuje, zatlačuje prirozeně do pozadí až bezvýznamnosti všechny starší a datově omezenější gramatiky, lexikony a další výzkumy a popisy. Její náročnou a stále rozvíjenou oblastí je metodologie, která se snaží vyrovnat s problémy, které přinášejí velké rozsahy dat. Je pochopitelné, že se korpusová lingvistiky leckde nabízí nejen v základních výukových kurzech, ale i jako samostatný obor.

3.6 Český národní korpus.

Raným příspěvkem budoucímu korpusovému oboru byl pro češtinu vznik Českého národního korpusu (ČNK) ustavením jeho ústavu na FFUK v roce 1994 (ÚČNK). Okolnosti vzniku, první i další problémy a měnící se podobu zachycuje řada dokumentů a článků (např. Čermák 1995, 1997, 1998, 2004 aj., Kučera 2002 a další). Projekt ČNK, vnímaný jako odpověď na kontinuální potřebu mapovat český jazyk, se od samého začátku chápe jako akademický, nekomerční a volně přístupný na webu (korpus.cz). Reakcí na to je dnes jeho široké využívání (tisíce registrovaných uživatelů) lingvisty, ať už profesionály nebo studenty, doma i v zahraničí, stejně tak jako nelingvisty. Jeho podoba se pochopitelně inkrementálně stále mění, co do rozsahu i neustále vylepšovaného značkování. K začátku roku 2011 projekt tvoří několik korpusů různého typu.

1 Synchronní korpusy psané SYN A reprezentativní: SYN2000 (100 mil), SYN2005 (100),

SYN2010 (100)

B nereprezentativní: SYN (1300 mil)

2 Synchronní korpusy mluvené: PMK (675 tis., 2001), BMK (490 tis., 2002),

ORAL2006 (1 mil), ORAL2008 (1 mil.)

3 Diachronní korpus: DIA (1,6 mil, 2005, od konce 13. stol. selektivně až k synchronii)

4 Paralelní korpus: InterCorp (50 mil, 2008, dvacet dva jazyků)

Kromě toho se mj. nabízejí i speciální korpusy: KSK-dopisy (800 tis., 2006),

SCHOLA2010 (790 tis, záznamy školních

hodin)

DOTKO (12 mil, 2010, dolní lužická srbština,

hostující)

Korpusy jsou týmovým dílem, kde zvl. v poslední fázi spolupracuje s týmem ÚČNK na lemmatizaci a tagování řada spolupracovníků z ÚTKL a externě i UFAL MFF UK. K provozu korpusů se užívá stále osvědčený a v Brně vyvinutý nástroj Manatee-Bonito. Lemmatizovaných a tagovaných je většina psaných korpusů, probíhají pokusy o lemmatizaci i frazémů.

3.7 Korpus a jeho studium.

Existence korpusu změnila od základu i filozofii citací užívaných v příručkách a slovnících apod. a reorientovala autory od hledaných a citovaných izolovaných příkladů od vzorových autorů (jakkoliv nebylo jasné, kdo všechno ten dobrý autor je) k příkladům typickým, a tedy v jazyce základním, podporovaným většinovou frekvencí. Změnila se tak i základní filozofie pohledu lingvistiky na jazyk. Korpus ovšem nabízí i neobyčejně velkou možnost studovat periférii jazyka, kde nacházíme i menšinové varianty, autorské experimenty, obecně však především doklady jazykového vývoje včetně chyb či překlepů. Většinový, typický přístup k jazykovému úzu je zároveň přístup objektivní, bez zátěže vycházející od sporných projevů individuální intuice a z ní vyplývající interpretace. Intuice je vždy arbitrární, proklamativní a subjektivní a nelze s ní tedy objektivně v zásadě pracovat, jakkoliv někdy může jako korektiv ve sporných případech posloužit.

Základ hledání v korpusu, které je vždy kontextové a vybavené i frekvencí výskytu, je primárně v identifikaci

(1) izolovaného (lexikálního) prvku/formy,

(2) prosté kombinace, resp. kolokace (i distanční),

(3) složité kombinace, struktury n. textového vzorce

(4) koligace, tj. hledání souvýskytu kategorií (např. vokativu a imperativu, nebo Vfin a pron a ADV)

Lze ovšem hledat i pouhé části formy, zvl. morfémy (srov. např. identifikaci interfixů, Čermák 2008); hledání napomáhá filtrace dat, ale také subprogramy jako je MI-score k identifikaci kolokací. Podobou výsledku hledání je vždy konkordance, lze dospět ale i k různým seznamům forem (srov. ale i zjišťování klíčových slov a tedy i tématu textu výše). Aspektem zdůrazňovaným při výzkumu korpusových dat je autentičnost dat, jejich explicitnost a úplnost výskytu a tedy i dokumentace sledovaného jevu; taková data jsou také citovatelná. Oproti selektivnímu užití typu corpus-based (opírající se o korpus) se v dnešních přístupech u velkých a reprezentativních korpusů spíše očekává přístup corpus-driven (pouze založený na korpusu).

S rostoucím příklonem k užívání tématicky a jinak sevřených subkorpusů se nabízí obecně možnost hledat souvztažnosti typu textu a registru/žánru s hledanými formami, které se v něm vyskytují apod. Celý reprezentativní korpus se studuje především tenkrát, jde-li o dosažení obrázku platného pro celý jazyk, jakým je např. gramatika či slovník; na druhou stranu velký zájem nebude, jakkoliv je to možné, o gramatiku poezie či lexikon starších ženských mluvčí v mluveném korpusu. Vybrané subkorpusy i speciální korpusy, je-li to třeba, se můžou dále analyzovat i pomocí speciálně napsaných lokálních gramatik (zjišťujících např. pojmenované entity, především propria). Velkým problémem je dosud spolehlivá identifikace víceslovných jednotek (nejen frazémů).

Naproti tomu jsou dnešní korpusy nejlepším zdrojem studia jazykového aspektu normalizací a kodifikací potlačovaného a deformovaného, tj. jazykové variace (variability), která je zásadním zdrojem poznání proměny a vývoje jazyka (to statické spisovníky v jejich úporném zdůrazňování jediné správné formy nikdy nezajímalo). Variace se nemusí vnímat ale jen diachronně nýbrž i synchronně, zvl. regionálně, popř. sociálně (zvl. u mluvených korpusů).

Jakkoliv se ČNK už dávno stal východiskem pro dosud nerealizovaný současný slovník češtiny (ty jsou běžné dnes jinde, zvl. pro angličtinu), první korpusově založená gramatika češtiny už vyšla (Cvrček aj.). Obecně tým ÚČNK a další spolupracovnící však už stačili jen knižně vydat na dvacítku knižních publikací (většinou v řadě Studie z korpusové lingvistiky v NLN), z toho 4 slovníky a zvlášť významný komplexní statistický popis češtiny (viz bibliografii). Dodejme ještě, že se po platformách mezinárodních (zvl. International Journal of Corpus Linguistics) nedávno objevila i u nás časopisecká platforma pro korpusově orientované příspěvky (KGA, Korpus, gramatika a axiologie).

3.8 Aplikace a využití korpusu.

Říct, jaké všechny aplikace lze od tak bohatého a komplexního zdroje, jakým je korpus, očekávat, není možné. Jistou odpovědí může být, že výstupů může být tolik a takové, které si v důsledku zájmu a potřeby uživatel dokáže představit, vymyslet a koncipovat. Základní aplikace jsou vedle vlastních lingvistických (ty se za aplikované obvykle ale nepovažují) především v oblasti lexikografie, jazykového překladu, jazykové pedagogiky (pro studenty domácí i cizí) a další, především z oborově přechodných oblastí jako je sociolingvistika a psycholingvistika. Korpus se však vydatně užívá i mezioborově a také širokou veřejností.

3.9 Otevřené problémy kolem korpusů.

K hlavním problémům a otevřeným otázkám současného dění v oblasti výstavby a studia korpusu, které se už promítá i do budoucnosti a téměř automaticky mají i povahu metodologickou, je

A nalezení možnosti spolehlivé identifikace

1-frazémů a idiomů (souvisí zvl. s rozpracovaním asociačních měr)

2-specifických typů kolokací (manuální analýza n-gramů je jen inspirativní, ale

neproveditelná)

3-větších textových struktur

B umožnění a zpřístupnění

4-označkovaných víceslovných jednotek

5-alternativních možností podle různých interpretací a teorií, též v případech textově

nejasných

6-plně propojené orální a grafické verze mluveného korpusu s reverzibilním hledáním

C nalezení spolehlivých kritérií a způsobů

7-určení vzorků dat v závislosti na rozsahu korpusu i povaze cíle

8-propojení webových korpusů s tradičními, tj. mj. omezení nenáhodnosti složení

Zvláště poslední bod je aktuální: data na webu (srov. mj. KWICFinder) se zdají snadněji dostupná (jakkoliv nevíme, z jakého celku pocházejí). Web ovšem není korpus ani archív; na webu pochopitelně ani nejsou data mluvená či hotové paralelní korpusy.

4. Zítra.

Jakkoliv do budoucnosti nikdo nevidí, pár věcí je v korpusové ligvistice a výstavbě korpusů natolik pravděpodobných, že je lze mít za téměř jisté. Určitý obecný obrázek umožní seřazení hlavních vývojových faktorů jako jsou: potřeba, zdroj, prostředek, výsledek. Na jedné straně je takto „jisté“, že tu počítače (především stále lepší) už zůstanou a s nimi i kontinuálně rostoucí korpusy (Zdroj a Prostředek), jejichž rozvoj se nesmí zastavit. Na druhé straně je stejně tak obecně „jisté“, že přetrvá snaha o další a lepší informaci (Potřeba), a to i takovou, která je specificky spjatá s nimi. Tvrdit opak je tvrdit, že je lepší usilovat o život bez lepších nástrojů a nebýt (kvalifikovaně) zvědavý, resp. zvídavý a nechtít tedy snáze a víc vědět; bylo by to proti lidské přirozenosti. Z této kombinace zdroje, prostředku a potřeby se lze konečně nadát i dalších a lepších výstupů, především lingvistických (Výsledek). Další poznámky týkající se budoucnosti už budou ale více specifické.

Protože lingvistika není „čistá“ věda ve smyslu exaktní matematiky či přírodních věd, bude i nadále pokračovat snaha o její formalizaci tam, kde to jde, a hledání nástrojů, které to umožní. Tento vývoj lze chápat aspoň dvěma směry. Na jedné straně se bude lingvista znovu a dál ptát, jak se korpusové doklady a svědectví o úzu mají ke kompetenci rodilého mluvčího, jejíž úhrn představuje prakticky nezměřitelnou variabilitu, specificky pak ale také, jak se mají k potřebám lidí učících se jazyk, ať jde o děti ve škole či cizince.

Na druhé straně se korpusový lingvista bude snažit zlepšit popis jazyka v obou jeho komplexních a základních složkách, pojmenovávací i usouvztažňující, a tedy v lexikonu a gramatice. Takto je už z mnoha náznaků zřejmé, že potřeba komplexního popisu čisté gramatiky dál neobstojí bez inkorporování aspektů úzu pokrývaných sociolingvistikou a pragmatikou, což bude vyžadovat systematický popis textu i daleko za hranicemi věty, kde většina syntaxí dnes končí. Je nejasné jak to udělat, jakkoliv se jasně vyciťuje potřeba popsat spolehlivě struktury informační a tématické a funkčně je propojit; řečeno zjednodušeně, jde o lingvistiku parole a potřebu jejího základního popisu. Netřeba zdůrazňovat, že základ, daný zvyšujícím se zájmem o syntagmatiku jazyka, především v podobě kolokací a větších (ustálených) struktur, je dobrým a nutným začátkem.

Naproti tomu i lexikon je třeba v jeho pojetí významně změnit. Na jedné straně je třeba konečně upustit od zavádějící představy slovníku jako anotovaného seznamu prostých slov a přejít k širšímu pojetí opírajícímu se o pojem lexému, kam patří i ustálené víceslovné kombinace a jednotky. Problém výběru víceslovných kombinací včetně některých termínů bude třeba opřít o frekvenci a korpusový úzus. Na druhé straně je třeba zohlednit i fakt rychlé proměny lexikonu jak ve změně sémantiky a úzu tak i formálních neologismů; jednou z cest je online propojení budoucího slovníku s korpusem, resp. Internetem.