Korpusno jezikoslovje

Korpusno jezikoslovje je raziskovanje naravnega jezika na podlagi obsežnega, po možnosti reprezentativnega, empiričnega vzorca besedil iz vsakdanje javne jezikovne rabe. Korpuse so pred digitalno revolucijo izdelovali ročno, danes pa so večinoma to računalniške baze podatkov shranjene na digitalnih medijih in javno dostopne prek spleta.

Zgodovina

V 20. stoletju je bil za lingvistiko izjemnega pomena Noam Chomsky, ki pa je zavračal obsežne zbirke besedil kot relevantne za temeljne raziskave v jezikoslovju. Chomsky ni upošteval, da je korpus zgrajen na podlagi rojenih (idealnih) govorcev. Eden izmed prvih »poskusov« korpusa je bil SEU (Survey of English Usage). Bil je še klasični neračunalniški, polovica besedil je bila transkripcija govora. Kasneje je bil prenesen v elektronsko obliko.

1.1. Korpus Brown (1961-1964) je prvi digitalizirani besedilni korpus in vsebuje besedila v ameriški angleščini. Korpus LOB (Lancaster, oslo, Bergen), ki je nastajal med letoma 1970 in 1978, pa je angleška različica korpusa Brown.

1.2. Korpusi druge generacije so povezani z razvojem tehnologije in so nastali ob sodelovanju raziskovalnih, univerzitetnih in komercialnih (predvsem založniških) okolij (Birmingham University in Collins Cobuild). Angleški in ameriški korpusi druge generacije so BNC, The Bank of English, ANC...

Opombe in reference

Prosto dostopna referenčna jezikovna korpusa na Slovenskem sta Nova beseda in Gigafida.

Viri

Prof. dr. Vojko Gorjanc: Uvod v korpusno jezikoslovje

Zunanje povezave

http://www.ling.lancs.ac.uk/staff/andrew/data.htm

Ta članek o jeziku je škrbina. Pomagajte Wikipediji in ga razširite.