DigiTaal, afl. 2

Nederlandse Taalkunde
Driemaandelijks tijdschrift
nummer 2, 1998

Valkuilen bij corpusonderzoek

J.G. Kruyt
Het Instituut voor Nederlandse Lexicologie (INL) heeft in de afgelopen jaren drie taalkundig verrijkte Nederlandse tekstcorpora opgebouwd die met behulp van een zoeksysteem via Internet on-line raadpleegbaar zijn voor onderzoekers: het 5 Miljoen Woorden Corpus 1994, het 27 Miljoen Woorden Krantencorpus 1995 en het 38 Miljoen Woorden Corpus 1996. De corpora met 5 resp. 38 miljoen woorden hebben een gevarieerde samenstelling, het corpus met 27 miljoen woorden bevat teksten uit de NRC van 1994 en 1995. Vele onderzoekers maken gebruik van deze corpora. Zo ook H.J. Verkuyl, blijkens zijn artikel "O corpora, o mores" (Nederlandse taalkunde 3-1, 1998). Daarin bediscussieert hij de vraag of theoretisch-taalkundig onderzoek profijt kan hebben van tekstcorpora en hij komt tot de volgende conclusie: "het nut van corpora voor het doen van taalkundig onderzoek is zo minimaal, dat het zonde van de tijd is om ze statistisch te gebruiken", waarbij "statistisch" staat voor "de neiging om kwantitatieve gegevens uit bestanden te benutten voor theoretische doeleinden" (p. 63). Deze conclusie lijkt wat voorbarig (ongeacht de juistheid of onjuistheid ervan), gezien de beperkte ervaringen met corpusonderzoek waarop Verkuyl zijn oordeel baseert. Veel tijd en "ellende" van het ordenen en opschonen van het corpusmateriaal had hem bespaard kunnen blijven door een betere kennis van de mogelijkheden van het zoeksysteem. Een wat beter inzicht in hoe je getalsmatige corpusgegevens kunt hanteren, had mogelijk kunnen leiden tot een genuanceerdere interpretatie van de aangetroffen frequenties. Verkuyl staat hierin niet alleen. Er zijn ook andere gerespecteerde taalkundigen die zich, in deze tijd van grote toegankelijke tekstbestanden, voor het eerst wagen aan de inspectie van tekstcorpora. Uit vragen blijkt dat ook zij soms niet goed raad weten met dergelijke kwesties. Voor die onderzoekers lichten we hier een klein tipje op van de sluier die de valkuilen van het corpusonderzoek bedekt. We laten ons hierbij inspireren door Verkuyls artikel.

Laten we beginnen met Verkuyls "ellende" van teksten die hij niet in het resultaatbestand van de zoekactie had willen hebben (NRC, Van Santen etc.). Het corpussysteem biedt de optie een subcorpus te selecteren en de zoekvraag uitsluitend te betrekken op de door de onderzoeker geselecteerde teksten. Ook biedt het systeem diverse mogelijkheden tot ordening van de gevonden tekstfragmenten, onder meer een ordening volgens teksttitel. Zo kan eenvoudig en snel een indruk worden verkregen van het effect van bepaalde teksten op de frequentiegegevens. Maar hiermee ben je er niet. Frequentiegegevens die ontleend zijn aan verschillende (sub)corpora kunnen niet zonder meer opgeteld worden, met elkaar vergeleken worden e.d. Frequenties moeten altijd gerelateerd worden aan het totaal aantal woorden in het geïnspecteerde (sub)corpus. Het werken met verhoudingen en proporties is dan ook bepaald niet zo onwetenschappelijk als Verkuyl suggereert, integendeel. Maar ook bij verschillende (sub)corpora van gelijke omvang kunnen frequentieverschillen optreden, als gevolg van de inhoudelijke samenstelling van de corpora. Zo zal een woord als minister naar verwachting een hogere relatieve frequentie hebben in een corpus van krantenteksten dan in een literair corpus. Voor de interpretatie van frequentieverschillen is het van belang te weten of het verschil op kans (toeval) berust dan wel significant groot is. Hiervoor zijn betrekkelijk eenvoudige statistische testjes. Niet voor al het taalkundige onderzoek zijn gecompliceerde statistische analyses nodig zoals die worden toegepast door onderzoekers als H. Baayen. Maar enige elementaire kennis van statistiek is onontbeerlijk voor een juiste interpretatie van getalsmatige gegevens ontleend aan corpora. De zinvolheid van de daardoor verkregen inzichten wordt natuurlijk bepaald door de onderzoeker, niet door de gegevens.

Er zijn meer valkuilen. Verkuyl wijst erop dat doublures van eenzelfde tekst niet in een corpus behoren voor te komen. Tenzij misschien als het zou gaan om herhalingen van items in verschillende nieuwsuitzendingen. Voor bepaald onderzoek kan dat een bewuste keuze zijn bij de corpussamenstelling, die echter niet voor andere onderzoekers wenselijk of relevant hoeft te zijn. In Verkuyls dataverzameling was dit overigens niet het geval; het betrof doublures in een aan het INL geleverd tekstbestand (een check hierop is nauwelijks haalbaar). Verder zou je als onderzoeker wellicht wensen dat alle spel- en drukfouten in de oorspronkelijke teksten gecorrigeerd zijn. Uit ervaring is gebleken dat vaak moeilijk objectief is vast te stellen of het om een fout gaat, dan wel om een opzettelijke afwijking van wat gebruikelijk is (bijv. in literaire teksten), of om onzekerheid over de juiste schrijfwijze (bijv. bij woorden die aan andere talen ontleend zijn). Correctie tast de oorspronkelijke tekst op een subjectieve en normatieve wijze aan. En er verdwijnen ook afwijkingen door die voor andere onderzoekers juist interessant waren geweest (bijv. voor spellingonderzoek). Afgezien van dit principiële bezwaar, is correctie zo arbeidsintensief dat de vraag gesteld moet worden of die inspanning opweegt tegen de daarmee beoogde kwaliteitsverbetering. Internationaal gezien wordt in het algemeen niet aan correctie van grote tekstcorpora gedaan. De veelheid van data neutraliseert het effect van relatief incidentele fouten; de resultaten zullen er meestal niet essentieel door veranderen.

Nog een ander probleem: fouten in de taalkundige verrijking. Het zoeksysteem biedt niet alleen de mogelijkheid om vragen te stellen op het niveau van 'woordvorm' (het meest elementaire niveau), maar ook op de niveau's van 'trefwoord' en 'woordsoort'. Ook zijn zoekvragen mogelijk waarin de verschillende niveau's gecombineerd worden onder door de onderzoeker te specificeren condities. De functie hiervan is dat zoekvragen nauwkeuriger gesteld kunnen worden en het resultaat van de zoekactie beter beantwoordt aan de wensen van de onderzoeker. Zo krijg je (idealiter) bij een zoekopdracht naar het trefwoord zijn in de conditie 'als werkwoord', wel tekstfragmenten met woordvormen die tot het paradigma van dat werkwoord behoren, maar niet zijn als pronomen. Verkuyl kan de gevallen van 'x is een prototype van y' afzonderlijk opvragen door een gecombineerde zoekopdracht in de trant van 'geef mij tekstfragmenten waarin het lemma prototype gevolgd wordt door het voorzetsel van binnen een afstand van, stel, 3 willekeurige woorden'. Het zoeksysteem biedt dergelijke mogelijkheden voor genuanceerder onderzoek, de onderzoeker bepaalt welke zoekopdrachten zinvol zijn voor zijn onderzoeksvraag. Dat het systeem zoekmogelijkheden boven het niveau van 'woordvorm' biedt, komt doordat vooraf een trefwoord en een woordsoortcategorie zijn toegekend aan de woorden in de corpusteksten, zodat het zoekprogramma op die parameters kan zoeken. Die trefwoorden en woordsoorten zijn niet handmatig of interactief door linguïsten in de tekstbestanden aangebracht, maar automatisch door taalkundige programmatuur. Dat gaat dus lang niet altijd goed. Vooral ambiguïteiten op trefwoord- en woordsoortniveau, onbekende woorden en scheidbare woorden vormen een probleem. Een deel van die problemen kan worden opgelost door optimalisering van de taalkundige programmatuur. Maar een belangrijk deel kan alleen worden opgelost wanneer automatische taalkundige analyse beter mogelijk is dan nu. Fouten in de taalkundige verrijking leiden enerzijds tot fouten in het resultaat van de zoekactie, anderzijds tot het niet vinden van fragmenten die taalkundig gezien in het resultaatbestand hadden behoren te zitten. Lang niet altijd geldt hier dat de veelheid van data een neutraliserende werking kan hebben op het effect van de fouten. Soms kan een andere formulering van de zoekvraag helpen. Maar waar dit niet het geval is of lijkt te zijn, kan de onderzoeker altijd terugvallen op zoekacties die geen gebruik maken van de taalkundige verrijking, die op woordvormniveau. Dat levert hem dan wel meer ellende op: meer zoekvragen en meer werk om het resultaatbestand op te schonen en te ordenen. Het is aan de onderzoeker of hij gebruik wil maken van de opties die mogelijk zijn door de taalkundige verrijking.

Een heel essentiële valkuil is nog slechts impliciet aan de orde geweest: de vraag of het geraadpleegde corpus wel een sample is dat representatief genoemd kan worden voor een grotere populatie van het Nederlands. Met andere woorden, in hoeverre zijn de resultaten corpus-gebonden dan wel meer algemeen. In principe vraagt elke onderzoeksvraag om een daartoe samengesteld, representatief corpus. Zo heeft kindertaalonderzoek niets aan een corpus van teksten geschreven door volwassenen; een corpus voor tweedetaalverwervingsonderzoek stelt weer andere eisen. De notie 'representatief corpus' is een problematische, waarvoor nog niet echt een oplossing is. Het zou te ver voeren hier dieper op deze problematiek in te gaan; ik verwijs daarvoor naar werk van W. Martin (o.a. in Corpusgebaseerde Woordanalyse 1987-1988, jaarboek Taalkunde VU) en met name naar werk van D. Biber, die op dit gebied baanbrekend onderzoek verricht met gebruikmaking van de mogelijkheden van automatische taalkundige analyse en gecompliceerde statistische technieken (o.a. in Computational Linguistics 1993). Het opbouwen en toegankelijk maken van een corpus is erg arbeidsintensief. Bovendien is een corpus slechts een onderzoeksinstrument en niet het primaire doel van de onderzoeker. Daarom maken onderzoekers graag gebruik van reeds bestaande corpora (zoals het Eindhovencorpus van Uit den Boogaart, de Volkskrant op CD-ROM, of de INL-corpora), vaak echter zonder zich bewust te zijn van de potentiële effecten van de corpussamenstelling. De INL-corpora die via Internet raadpleegbaar zijn, zijn niet representatief voor 'het' Nederlands. Wel is over de samenstelling van die corpora nagedacht. De belangrijkste functie van de optie 'subcorpusselectie' in het zoeksysteem is dat de onderzoeker, binnen de randcondities van het corpus, zelf het voor zijn onderzoek meest ideale, of zo U wilt, minst slechte subcorpus kan afbakenen en dan zijn zoekvragen uitsluitend betrekt op dat subcorpus. Of een onderzoeker laat eenzelfde zoekvraag los op verschillende subcorpora en gaat na in hoeverre het resultaat door het type teksten in het subcorpus bepaald wordt. Ook hier is het aan de onderzoeker of hij gebruik wil maken van bestaande corpora of zelf een corpus wil opbouwen. In beide gevallen is de onderzoeker zelf verantwoordelijk voor het bepalen van de geschiktheid van het corpus voor zijn onderzoek.

Wat een ellende, zo'n corpus. Moet de conclusie zijn dat je er niet wezenlijk iets aan hebt? Kennelijk niet voor iedereen, blijkens het feit dat inmiddels meer dan 200 individuele onderzoekers uit de hele wereld toegang hebben tot een of meer INL-corpora, die gezamenlijk meer dan 60.000 zoekvragen hebben gesteld over tal van linguïstische onderwerpen. Er zijn ook nog vele gebruikers van andere corpora. Hieruit zijn wetenschappelijke publicaties en dissertaties op het gebied van de taalkunde voortgekomen. In hoeverre die voor de theoretische taalkunde van belang zijn, laat ik aan het oordeel van Verkuyl over.

Wie meer wil weten over de kwesties die binnen dit bestek slechts konden worden aangestipt, zou hoofdstuk 3 van Corpus Linguistics door Tony McEnery en Andrew Wilson (Edinburgh University Press, 1996) ter hand kunnen nemen. Ook zou de comfortabele theoretisch-taalkundige leunstoel van Verkuyl even verruild kunnen worden voor een hard collegebankje aan de VU voor het college 'Introductie corpusonderzoek' van Eric Akkerman, waar praktijkervaring wordt opgedaan met behulp van de INL-corpora. Er zijn handleidingen voor het gebruik van de zoeksystemen van het INL. En tenslotte is er nog een INL-helpdesk (Helpdesk@Rulxho.Leidenuniv.nl). Verkuyl wordt hierbij uitgenodigd nog eens een poging te wagen, maar dan wellicht wat beter voorbereid. Natuurlijk kunnen ook andere taalkundigen desgewenst de INL-corpora raadplegen voor hun onderzoek. Het INL brengt hiervoor geen kosten in rekening. Het is alleen nodig een individuele gebruikersovereenkomst te tekenen waarin de voorwaarden van het gebruik zijn vastgelegd. Als U mij een mail stuurt, zorg ik voor de rest.

J.G. Kruyt
Instituut voor Nederlandse Lexicologie INL,
Postbus 9515, 2300 RA Leiden
E-mail: kruyt@rulxha.Leidenuniv.nl

Voor meer informatie over de INL-corpora, de gebruikers ervan, de doeleinden waarvoor ze gebruikt worden en het zoeksysteem verwijzen we naar de volgende publicaties:

Kruyt, J.G. (1995). Nationale tekstcorpora in internationaal perspectief. Forum der Letteren 36 (1), 47-58.

Kruyt, J.G., S.A. Raaijmakers, P.H.J. van der Kamp en R.J. van Strien (1995). On-line Access to Linguistically Annotated Text Corpora of Dutch via Internet. In H. Rettig (red.) Language Resources for Language Technology. Proceedings of the First European TELRI Seminar. Mannheim: Institut für Deutsche Sprache, 173-178.

Kruyt, J.G. en M.W.F. Dutilh (1997). A 38 Million Words Dutch Text Corpus and its Users. Lexikos 7 (AFRILEX-reeks/series7:1997), 229-244.

[ Naar het begin van deze pagina ] [ Naar de DigiTaal-openingspagina ]
© 1998, J.G. Kruyt
Pagina aangemaakt op 24/04/1998 door Matthias Hüning