Radioen

On air

Iwwer Mëtteg  |  

play_arrow Live
arrow_back_ios

100komma7.lu

100komma7.lu

/ Wat mécht ee mat engem Korpus?

Kuriositéiten aus der Lëtzebuerger Sprooch

Wat mécht ee mat engem Korpus?

Elo geet et nees ëm Kuriositéiten aus der Lëtzebuerger Sprooch an dës Kéier ass den Alexandre Ecker erëm bei eis am Studio. Hien ass Lexikograf beim Zenter fir d'Lëtzebuerger Sprooch an haut verréit en eis, wat e Korpus ass a wat een domat ka maachen.

auto_stories

5 min

Simon: Du hues eis schonn esou dacks vun deem Korpus do geschwat, dofir sinn ech richteg frou, dass mer haut méi am Detail drop ze schwätze kommen.

Alexandre: Jo, et ass effektiv Zäit ginn ... an et ass och e richteg spannend Theema! S: Ma da so eis emol, wat een sech dorënner muss virstellen. A: Ma e Korpus, wéi en traditionell an der Lexikografie benotzt gëtt, ass näischt anescht ewéi eng méi oder manner grouss Sammlung vun Texter. Haut kann een da mat speziellen informateschen Toole déi gesammelt Date benotzen, fir verschidde Saachen iwwer d'Sprooch erauszefannen oder Hypotheesen ze iwwerpréiwen.

Da gëff eis do emol e Beispill.

Ma beim ZLS gi mer dacks gefrot, wéi déi éischt Wuertlëscht vum Lëtzebuerger Online Dictionnaire zustane komm ass. Déi Lëscht huet ganz einfach op enger statistescher Auswäertung vun engem Korpus berout, deen extra dofir zesummegestallt gouf. Well do lëtzebuergesch Texter gesammelt goufen, gouf dee Korpus och LuxText gedeeft. Allerdéngs waren awer eng ganz Rei Viraarbechten néideg, éier konnt lassgeluecht ginn ...

Wouran hunn déi Viraarbechten da bestanen?

A: Ma d'lescht hu mer jo driwwer geschwat, datt d'Wierder an hirer Grondform kënne virkommen, awer och flektéiert. Wann s de also genee wëlls wëssen, wéi heefeg e Wuert ewéi Blumm ass, muss de och d'Plurielsform Blummen matzielen, an och d'n-Reegel-Form Blumme. Bei de Verbe gëtt et nach vill méi komplex. Fir d'Verb sinn gëtt et zum Beispill iwwer 20 verschidde Formen, déi all muss berücksichtegt ginn, wann s de wëlls kloer erkennen, wéi heefeg dat Verb ass.

Iwwer 20 Formen?

Ech sinn, du bass, si ass, dir sidd, eleng am Present hues de der scho 4! De Participe passé ass gewiescht. Dann huet d'Verb och nach e gängegen Imparfait (ech war, du waars, asw.) an e gängege Conditionnel (ech wier, du wiers, ...), fir déi et och nach Variante gëtt, wéi z. B. ech wor fir den Imparfait an ech wär fir de Conditionnel.

A wéi hält een da fest, dass déi am Korpus all zesummegehéieren?

Ma dat geschitt iwwer déi sougenannte Lemmatiséierung. All Grafie, déi am Korpus virkënnt, gëtt mat enger Grondform a Verbindung gesat, also z. B. Blummen mat Blumm a gewiescht mat sinn. Déi Zesummenhäng ginn an enger Datebank festgehalen an et kann een se dann dono benotzen, wann een eppes am Korpus sicht.

Ass dat dat eenzegt, wat vu Viraarbechten néideg ass?

D'Etapp vun der Lemmatiséierung ass essenziell, dacks geet se Hand an Hand mat där vum Part-of-speech-Tagging.

Wat ass dat da fir en Déier?

Et héiert sech méi spektakulär un, wéi et a Wierklechkeet ass! Part of speech ass dat englescht Wuert fir Wuertaart. Et geet also drëm, fir all Wuert enger Wuertaart zouzeuerdnen. Also am System festzehalen, dass Blumm e Substantiv ass a sinn e Verb. Dat ass besonnesch interessant a wichteg bei Homografen, also bei verschiddene Wierder, déi d'selwecht geschriwwe ginn, wéi z. B. d'Prepositioun an (ech ginn an de Keller) an d'Konjunktioun an (de Simon an den Alexandre). Déi wëllt ee jo schliisslech kënnen auserneenhalen.

OK, ech verstinn. An de Korpus weist dann elo genee, wéi d'Sprooch gebraucht gëtt?

Du stells déi eminent wichteg Fro vun der Representativitéit vun engem Korpus. Dat ass en Ideal, dat mat sougenannte Referenzkorpusse fir aner grouss Sproochen effektiv ugestrieft gëtt. Do si mer mam LuxText awer nach wäit dervun ewech. Dee berout nämlech virun allem um Krittär vun der Verfügbarkeet. Et leien einfach net genuch geschriwwen Texter a Lëtzebuerger Sprooch vir. An aus deem Grond bleift de Korpus gréisstendeels heterogeen an onausgeglach, a gëtt sech dofir och kengesfalls den Usproch, representativ ze si fir de Sproochgebrauch.

Wéi grouss ass dann esou e Korpus?

Ma am LuxText sinn elo iwwer 45 Millioune lafend Wierder an e gëtt natierlech nach stänneg ausgebaut.

Wow, dat ass jo awer net näischt!

Nee, näischt ass et net, mee bedenk, datt z. B. d'Deutsches Referenzkorpus vum IDS Mannheim bal 1000 Mol méi Inhalt huet, also bal 45 Milliarde lafend Wierder! An awer ass de LuxText fir eis eng eminent wichteg Dokumentatiounsquell. D'Mataarbechter vum LOD kennen seng Schwaachstellen an hu geléiert, bei hirer Aarbecht dermat ëmzegoen. E gëtt natierlech och agesat, fir déi semantesch Nuancë vun den eenzele Wierder erauszeschaffen a Beleeger ze fanne fir gängeg Wuertverbindungen, fest Ausdréck an idiomatesch Tournuren.

Da gëff eis och do nach e Beispill!

Ma d'Resultat vun enger geziilter Sich am Korpus weist zum Beispill, dass de Sujet vum Verb "billen" iwwerduerchschnëttlech dacks en Hond ass. Dorops wiers de vläicht och intuitiv komm, mee de Korpus bestätegt déi Hypothees. Deemno gëtt dat dann och am LOD gewisen. An eng Sich op "Däiwel" weist relativ heefeg den Ausdrock "do war der Däiwel lass", un deen de Lexikograf ouni dat Hëllefsmëttel vläicht net geduecht hätt.

Eng flott Saach, dee Korpus! Leider si mer awer scho bal um Enn vun der Emissioun. Gëtt et nach eng lescht Saach, déi s de eis wéilts derzou soen?

Ma jo, an zwar, dass op der Uni Lëtzebuerg um Institut fir lëtzebuergesch Sprooch- a Literaturwëssenschaft och un engem Korpus geschafft gëtt, mat deels aneren Inhalter, an dass mer ganz frou sinn, dass do zesumme gekuckt gëtt, fir déi zwou Ressourcë mateneen ze verbannen. Et kéint drop erauslafen, dass dann och Deeler fir de Public zougänglech gemaach ginn, an zwar déi, déi vum Droit d'auteur hier onproblematesch sinn.

Ma da si mer gespaant, wat do derbäi erauskënnt! Sees de eis do Bescheed?

Jo, gären, ech si jo och an dräi Woche schonn erëm do. Wann s de d'accord bass, da kucke mer do zesummen, wat déi digital Revolutioun fir d'Dictionnairen alles esou mat sech bréngt.

Da maache mer! Bis dann!

Bis dann!