DigiTaal, afl. 9

Nederlandse Taalkunde
Driemaandelijks tijdschrift
nummer 2, 2000

Meertens Instituut: variatielinguïstiek on-line
Boudewijn van den Berg

1 Uitgangspunt

Zonder inzicht in taalvariatie op de kleine afstand, en dat in ruimtelijke, sociale en historische zin, is weinig sluitends te zeggen over variatie op de grote afstand - laat staan over taal als vermogen. Dit besef wordt helaas nog te weinig gedeeld: "(...) not all of the more theoretically oriented linguists seem to be sufficiently aware of the fact that variation is an essential characteristic of language" (Hinskens, van Hout & Wetzels 1998: 2).

Empirische studie van taalvariatie heeft belangrijke theoretische implicaties. Daarom wil het Meertens Instituut-KNAW haar rijke collectie aan taalvariatie versneld digitaal beschikbaar stellen. U kunt zo uw eigen onderzoek complementeren met onderzoek naar variatie en de contexten daarvan. Vanaf de website http://www.meertens.knaw.nl zal een collectie van ruim 70 miljoen gesproken en geschreven woorden in een gebruiksvriendelijke werkomgeving worden aangeboden, een unieke bron van honderd jaar Nederlandse taalvariatie[ 1 ]. Hieronder zal ik kort toelichten wat u kunt verwachten.
2 De collecties

Sinds de oprichting in 1930 van het Dialectenbureau onder leiding van P. J. Meertens en in opdracht van de Koninklijke Nederlandse Akademie van Wetenschappen, is een collectie taal- en cultuurdata ontstaan die elk jaar in omvang toeneemt. De collectie taalvariatie mag uniek genoemd worden in grootte (ruim 70 miljoen woorden), in tijdsspanne (meer dan honderd jaar) en in de brede samenstelling van de informantengroep (een kleine 20.000 mensen met uiteenlopende achtergronden). De taaluitingen zijn vastgelegd in vragenlijsten, geluidsopnames, streekliteratuur en veldwerkaantekeningen. Een aanzienlijk deel is inmiddels ontsloten met behulp van registers en transcripties.

De deelverzamelingen van de collectie vormen methodisch verantwoorde eenheden wat betreft diverse taalkundige en sociolinguïstische variabelen. (Dit geldt uiteraard niet voor de collectie als geheel, die immers historisch is gegroeid.) Gesproken corpora zijn er onder meer van dialect in Katwijk, standaardtaal uit Leiden, scholieren- en elitetaal, van Amsterdams uit de jaren zeventig en negentig, van dialect aan weerszijden van de Duitse grens bij Millingen, van emigranten in Brazilië en de Verenigde Staten en van immigranten in de stad Utrecht. [ 2 ] Voor de methodische noodzaak van ook corpusonderzoek in de taalkunde is recentelijk in dit tijdschrift nog gepleit door Baayen (1998).

Betrouwbaarheid en validiteit van de fonetische transcripties in de collectie zijn niet in het geding, zo is aangetoond in recent onderzoek van Goeman (1999). Evenzo blijkt dit te gelden voor het schriftelijke deel van de collecties (ibidem). Het gaat bij dat laatste om een geschatte elf miljoen woorden: door dialectsprekers zelf opgetekende taaluitingen.
3 Het onderzoeksinstrument

Het onderzoeksinstrument dat de website van het Meertens Instituut wil zijn, zal bestaan uit drie hoofddelen: (a) ontsluiting van gegevens in de vorm van catalogi, transcripties en registers, (b) de collecties van ruwe data zelf en (c) hulpmiddelen voor de verwerking van de door u geselecteerde gegevens en voor de presentatie van uw resultaten.
3a Ontsluiting

Het hoofddeel Ontsluiting zal uiteindelijk de volgende onderdelen omvatten:

bibliografieën

naamkunde

projectgebonden

catalogi van

instituutsbibliotheek

geluidsopnames en transcripties

verhalen en liederen

nalatenschapsarchief

registers op

fonetische transcripties

schriftelijke enquêtes

Stel, u bent geïnteresseerd in het bindingsdomein van pronominale verwijzingen. U zoekt in diverse bibliografieën naar meer informatie. Wat betreft de website van het Meertens Instituut kunt u kiezen voor een bibliografie van naamkundige literatuur, voor bibliografieën met educatieve doeleinden (deze zijn met name bedoeld voor leraren en het Kennisnet voor de scholen) en voor projectgebonden bibliografieën zoals de bibliografie bij de Syntactische Atlas van Nederlandse Dialecten. De productie van de eigenlijke dialectbibliografie is enige jaren geleden overgenomen door het NIWI (Nederlands Instituut voor Wetenschappelijke Informatiediensten-KNAW) en wordt (als voorheen) gepubliceerd in de BNTL. [ 3 ]

Uiteindelijk treft u in een projectbibliografie nadere uitsplitsingen van uw onderwerp aan met passende verwijzingen. U stuit op een verwijzing naar een geografische regio waar het anders toe lijkt te gaan dan uw hypothese zou toelaten. Maar hoe anders, hoe vaak en onder welke condities?

In de bibliotheekcatalogus met 50.000 boeken, inclusief streekliteratuur, en 1.000 tijdschrifttitels is de kans groot dat u andere publicaties kunt vinden over deze regio.

Vervolgens blijken in de geluidscatalogus heel wat plaatsen uit deze regio vertegenwoordigd te zijn. De collectie omvat ruim 4.000 magneetbanden, 400 platen en 400 cassettes. U treft in de catalogus informatie aan over de lengte van de opnames, over het tijdstip en de omstandigheden, het soort spraak (vrij of geëliciteerd), het aantal sprekers en de mate en kwaliteit van het dialect. Bij 45% van de opnames kunt u doorklikken naar een transcriptie.

Bij de opnames kunt u denken aan vrije gesprekken (van formeel tot zeer informeel), interviews (met daarin monologen over onderwerpen uit dialect of volkscultuur) en opsommingen van woordenlijsten. Onder de sprekers treft u bijna alle leeftijden aan (vanaf eerste groepers) en sociale bevolkingslagen, ook emigranten en immigranten. Het hele continuüm van standaardnederlands tot dialect is vertegenwoordigd. [ 4 ]

Via een verbinding op plaatsnaam of regio leert u dat hier ook enkele verhalen en liederen zijn opgetekend en tevens welke onderzoekers hier ooit veldwerk hebben verricht. De ontsluiting van de collecties gesproken verhalen en gezongen liederen vormt een eigen verhaal; hierop zal ik verder niet ingaan. Wel merk ik op dat bij de liederen en verhalen veelal van standaardtaal sprake is.

Naar pronominale bindingsdomeinen, ons voorbeeld, blijkt mondeling en schriftelijk te zijn geënquêteerd in verschillende jaren; dit blijkt uit de registers op onderwerp (lexicaal en grammaticaal). Uit een eerste selectie van enquêtevragen houdt u er uiteindelijk een aantal over die bij uw onderwerp lijken te passen. U moet hierbij denken aan lijsten met woorden en zinnen en aan schriftelijke invul- en vertaalopdrachten. Om ook met uw onderwerp verwante constructies op het spoor te kunnen komen is het grammaticale register door Eric Hoekstra [ 5 ] samengesteld uit beschrijvingen van constructies en structuuralternanties en niet uit benoemingen van constructies. [ 6 ]

De registeringangen op de jaarlijks uitgezonden vragenlijsten zijn met name bedoeld om het doel van de enquêtevraag duidelijk te maken. Hoewel het verwachte antwoord op een vraag allerhande woordcombinaties kan bevatten, wordt in de registeringang alleen het beoogde belang van de vraag uitgedrukt. Immers, een register is in het algemeen overbodig zodra de tekst waar het om gaat zelf elektronisch te doorzoeken is (zoals bij orthografische transcripties).

Informatie die vrijkomt naast het hoofddoel van de vraag is minder gecontroleerd en daardoor mogelijk te uiteenlopend; toch bestaat de mogelijkheid te zoeken in de tekst van de ter vertaling aangeboden zinnen die niet letterlijk uw onderzoeksonderwerp bevatten: immers, sommige zinnen kunnen dit onderwerp in bepaalde regio's onbedoeld wel degelijk uitlokken.

Bij de registers gaat het vooral om de jaarlijks uitgezonden instituutsvragenlijsten inclusief de voorlopers hiervan, de enquêtes van het Aardrijkskundig Genootschap uit de 19e eeuw. Mogelijk dat ook het register op de dagblad-enquêtes van de Stichting Nederlandse Dialecten hierbij wordt opgenomen. Er is tevens de intentie om het (varianten-)register op de vertaalzinnen van de "Reeks Nederlandse Dialectatlassen" op te nemen. [ 7 ]

Vanuit de ontsluitingsmiddelen kunt u direct doorklikken naar de eigenlijke gegevens.
3b Data

Het hoofddeel Data zal uiteindelijk de volgende onderdelen omvatten:

informantgegevens

transcripties

orthografisch

fonetisch

geluidsopnames van

vrije spraak

geleide spraak

verhalen en liederen

schriftelijk gegevens

antroponiemen en toponiemen

enquêtes

verhalen en liederen

veldwerkoptekeningen

U heeft in uw virtuele speurtocht naar variatie in pronominale bindingsdomeinen enkele geluidsopnames en enquêtevragen geselecteerd; u kunt nu onmiddellijk doorklikken naar de informantgegevens en aan de hand hiervan de selectie verfijnen. Voor raadpleging van beschermde informatie moet u echter persoonlijk contact opnemen met het instituut.

Van de geluidsopnames is rond de 35% orthografisch fonologiserend getranscribeerd (afhankelijk van opnameproject al dan niet verrijkt met kenmerken). Een automatische toekenning van een morfologische beschrijving zal bij digitalisering worden meegenomen.

Nauwkeurig fonetische transcripties bestaan van de opnames van het Goeman-Taeldeman-project, circa 10% van de geluidsopnames. Dit project betreft onderzoek naar fonologische en morfologische variatie in het Nederlandse taalgebied. Algemene beschikbaarheid van de transcripties wordt nog uitgesteld in verband met de huidige publicatie van atlassen gebaseerd op dit materiaal. U kunt via het instituut wel reeds contact opnemen met de projectgroep om een gebruiksaanvraag in te dienen.

De digitalisering van de (onmiddellijk opgetekende) fonetische transcripties (meestal zonder geluidsopname) van de "Reeks Nederlandse Dialectatlassen" zouden in dit verband een uiterst waardevolle aanvulling zijn. Een pilotstudie naar digitalisering met tekenherkenning is gepland voor dit jaar. Hierbij zullen de nieuwste OCR-technieken van het reeds genoemde NIWI worden benut. Tot voor kort leek het onmogelijk de kleine diakritische tekens op een dergelijke manier te scannen. De verwachtingen ten aanzien van deze pilot zijn hoog. [ 8 ]

Over transcripties van de kleinere projectgebonden corpora wordt nog overlegd.

Van de transcriptie kunt u naar het feitelijke geluidssignaal; een orthografische transcriptie maakt immers in veel gevallen slechts attent op de potentiële aanwezigheid van gezochte verschijnselen. Oplijning van de transcriptie met de feitelijke spraak is nog niet direct te verwachten. Wel kunt u een opname in haar geheel opvragen. Het digitaliseringstraject van alle aanwezige geluidsopnames is efficiënt opgezet door Meertens-medewerker Kees Grijpink [ 9 ]. We komen hier bij het omvangrijkste digitaliseringsproces op het instituut.

Onderzoek vindt momenteel plaats naar de optimale vormen van compressie voor toegankelijkheid vanaf de website. Voorlopig zal de werkwijze nog zijn dat, na digitalisering van de band, op aanvraag een kopie wordt gebrand vanaf de cd-rom. [ 10 ]

Van de schriftelijke gegevens staan de familienamen inmiddels als eerste op de Meertens website. Hierin opgenomen zijn onder meer de cijfers uit de volkstelling van 1947. U kunt niet alleen op naam zoeken maar ook op samenstellende naamsdelen. De resultaten zullen straks worden gepresenteerd in de vorm van frequentiekaarten. Digitalisering van de toponiemenbank ligt nog in de iets verdere toekomst. Hierbij moet u niet alleen denken aan plaats-, veld- en waternamen maar ook aan namen van onder meer studentenhuizen, bedrijven als café's en aan objectnamen.

Ook bij namen (vooral bij toponiemen) kunt u gegevens aantreffen met betrekking tot pronomina, het voorbeeld dat wij hier nu gebruiken.

Van de ontvangen reacties op de jaarlijks uitgezonden vragenlijsten is in de loop der jaren een ruime 15% handmatig ingevoerd. Hierbij werden de tekens en woorden die voor de datatypist onleesbaar bleken vervangen door afgesproken codes; enig informatieverlies is wel het gevolg. Deze manier van invoeren is bovendien arbeidsintensief en tijdrovend. Scannen van het materiaal met behulp van automatische karakterherkenning is ondoenlijk gezien de grote variëteit aan handschriften en de uiteenlopende verschillen in leesbaarheid.

Op moment van publicatie van dit artikel zal een digitaliseringstest zijn afgerond naar een mogelijkheid om de vragenlijsten toch snel, handelbaar en tevens voor iedereen tegelijk beschikbaar te stellen. Hierbij wordt samengewerkt met het NIWI waar de lijsten worden gescand als afbeelding. Het scannen op deze manier is een betrekkelijk eenvoudige en snelle handeling met als bijkomend voordeel dat de onderzoeker de lijsten in origineel handschrift kan raadplegen. De bijbehorende ontsluitingsapplicatie maakt een handzame raadpleging mogelijk waarbij het beeld automatisch wordt opgebroken tot vraagniveau.

U kunt aan de hand van de eerder vermelde registers voorlopig nog uw voorkeuren kenbaar maken met betrekking tot de volgorde waarin de vragenlijsten worden gescand; het huidige totaal van 116 landelijke vragenlijsten [ 11 ] zal gezien de werkdruk bij het NIWI pas in de loop van twee jaar kunnen zijn afgerond; het gaat immers om een half miljoen pagina's. Registers en het overzicht van de ter vertaling aangeboden woordgroepen kunnen per e-mail worden aangevraagd bij de auteur van dit artikel. [ 12 ]

De door u opgeroepen ruwe data worden direct getoond in een database waarin u vervolgens zelf aan de slag kunt.

3c Verwerking en presentatie

Het hoofddeel Verwerking en presentatie zal uiteindelijk de volgende onderdelen omvatten:

bewerkingsdatabase

categorisering

statististiek

kaartekenmodule

distributiekaarten

frequentiekaarten

rapportmodule

Met een druk op de knop worden vanuit de registers alle opgeroepen data, bijvoorbeeld de ingevulde enquêtes, zichtbaar in een databewerkingsbestand. U kunt nu de ingevulde antwoorden zelf categoriseren door middel van uw eigen trefwoorden en die onmiddellijk in de diverse aangeboden velden invoeren. Het trefwoordveld houdt uiteraard een index bij zodat u kunt opschieten. Vervolgens heeft u de mogelijkheid ook deze trefwoorden nader te bewerken. Statistische gegevens worden automatisch aangepast.

Daarna doet de volgende knop de rest: u krijgt een kaart van het gebied waarin u bent geïnteresseerd en een (door Meertens-medewerker Maarten van der Peet geautomatiseerd) vormgegeven rapport van trefwoorden, plaatsnamen, automatisch bepaalde frequenties, opmerkingen en wat u verder heeft ingevoerd of mee heeft laten komen. Vanzelfsprekend zal in zowel de database als de aanklikbare kaart algemene geografische informatie beschikbaar zijn per plaats en gebied zoals de mate van verstedelijking, de leeftijdsopbouw en historische feiten.

Deze bewerkingsdatabase met kaartmodule kunt u ook benutten voor uw eigen gegevens. Een plaatsnaam en trefwoord is voldoende voor een inzichtelijke kaart. Mogelijk verschijnt ook een cd-rom met deze applicatie. [ 13 ] Specifieke wensen kunt u te allen tijde kenbaar maken zodat de applicatie na aanpassing nog effectiever kan worden ingezet. [ 14 ]

De symbooltoekenning op de kaart kan plaatsvinden op frequentie van het trefwoord of op alfabet. De weergave in de legenda kan ook op beide manieren, zodat een combinatie van vier mogelijkheden ontstaat. Zo kunt u ook van een verschijnsel dat zich voordoet in meerdere woorden evenzovele kaarten maken waarbij dezelfde verschijnselen in weliswaar per kaart wisselende frequenties toch dezelfde symbolen krijgen.

Kaarten waarop de symbolen worden afgebeeld zijn er van Nederland en Nederlandstalig België, van elke provincie afzonderlijk of van grotere regio's. U kunt ook een combinatie van provinciekaarten oproepen. Het zal bovendien mogelijk zijn historische kaarten te kiezen aangepast aan het tijdvak van de gegevens.

Bij webpublicatie van de interactieve kaart kan door aanklikken van een plaats al de informatie worden opgeroepen die u daarbij heeft opgeslagen in de database, zoals trefwoord, plaatsnaam, toelichtingen, uitspraak (ook in geluidsvorm) en afbeeldingen.

Uw onderzoek naar pronominale bindingsdomeinvariatie is afgerond. Houdt uw hypothese stand?

Boudewijn van den Berg
onderzoeksmedewerker Variatielinguïstiek
Documentaire Informatieverzorging

Literatuur

Baayen, H. (1998). Het Anti-Corpus Axioma. Nederlandse Taalkunde 2, 131-136.

Goeman, T. (1999). T-deletie in Nederlandse dialecten: kwantitatieve analyse van structurele, ruimtelijke en temporele variatie. Den Haag: HAG.
* Tevens beschikbaar op de website van het Meertens Instituut.

Hinskens, F. & R. van Hout & W. L. Wetzels (1998). Balancing Data and Theory in the study of Phonological Variation and Change. In: F. Hinskens & R. van Hout & W. L. Wetzels (ed) (1998). Variation, Change and Phonological Theory. Amsterdam: John Benjamins.

Ryckeboer, H. & H. Scholtmeijer (1998). De Nederlandse dialectologie en variatielinguïstiek voor de 20e-eeuwwende. Taal & Tongval, themanummer 11, 65-98.

Noten
[ 1 ] Voor een uitgebreidere beschrijving van deze collectie en voor beschrijvingen van de overige collecties van taalvariatie, zie Ryckeboer & Scholtmeijer (1998).
[ 2 ] Sommige van de corpora zijn bij het instituut in bewaring gegeven.
[ 3 ] http://www.niwi.knaw.nl
[ 4 ] Van een klein aantal personen is na 20 jaar een herhalingsopname gemaakt.
[ 5 ] Oud-onderzoeker van het Meertens Instituut; thans verbonden aan de Fryske Akademy-KNAW.
[ 6 ] Het register op de woordenlijst van het Goeman-Taeldeman-project biedt ingangen op historische fonologie.
[ 7 ] Het reeds enkele jaren geleden afgesloten register op bijna alle uitgezonden vragenlijsten in het Nederlandse taalgebied is in fiche-vorm raadpleegbaar, op afspraak. Het is in eerste instantie de bedoeling dat hiervan alleen de bijbehorende blanco vragenlijsten zullen worden ingelezen. Hieraan gaat overleg met de lijst-uitzendende instanties uiteraard vooraf.
[ 8 ] Dit geldt alleen de gezette transcripties; voor de handgeschreven transcripties in de RND wordt nog naar een oplossing gezocht.
[ 9 ] Per anderhalf etmaal wordt in twee studio's het geluid verwerkt van 8 tot 10 opnames en op cd-roms geschreven. Professionele medewerkers uit de studiowereld verzorgen de bewerkingen van het signaal bij het overzetten. Digitalisering van de opnames gebeurt niet in de laatste plaats om de originele drager te behoeden voor slijtage door raadpleging.
[ 10 ] De mogelijkheid wordt onderzocht om een contract met het instituut af te sluiten voor digitalisering van audioarchieven. Momenteel loopt een kwaliteitstest van opnames uit de jaren dertig van de Universiteit van Amsterdam.
[ 11 ] Naast de (soms meerdere) lijsten per jaar zijn er ook proeflijsten en regionale lijsten verzonden.
[ 12 ] Een digitalisering van nagelaten dialectoptekeningen van veelal overleden onderzoekers wordt nog niet voorzien.
[ 13 ] Aan het gebruik van de data zelf zal een gebruikersovereenkomst voorafgaan. De exacte inhoud hiervan staat nog niet vast.
[ 14 ] Voor de dialectoloog: de applicatie maakt gebruik van de Kloeke-codering voor plaatsen en gehuchten. De Kloeke-codering is in de dialectologie van het Nederlandse taalgebied de gebruikelijke aanduiding, maar de applicatie herkent naast zowel de oude als de nieuwe Kloeke ook de plaatsnamen zelf (en maakt daarbij gebruik van een spellingsvariantenindex); vindplaatsaanduiding op een van deze wijzen is voldoende. Het onderzoeksinstrument is nog in ontwikkeling maar op dit moment kunt u nu wel een aanvraag doen om uw eigen data reeds in een kaart terug te zien of om op het instituut zelf te komen werken met de applicatie.

[ Naar het begin van deze pagina ] [ Naar de DigiTaal-openingspagina ]

Deze pagina is aangemaakt op 03-04-2000 door Matthias Hüning