DigiTaal, afl. 11

Nederlandse Taalkunde
Driemaandelijks tijdschrift
nummer 4, 2000

Het CONDIV-corpus geschreven Nederlands
Stefan Grondelaers (K.U. Leuven)¹
Katrien Deygers (I.N.L. Leiden)
Hilde Van Aken (V.U. Amsterdam)
Vicky Van Den Heede (U. Gent)
Dirk Speelman (K.U. Leuven)

1    Inleiding
Het VNC-project 'Lexicale variatie in het Standaardnederlands. Convergentie/divergentie en standaardisering/substandaardisering in Nederland en Vlaanderen' (hierna het 'CONDIV-project') heeft een synchrone en een diachrone ambitie. Diachroon gezien ambieert het project verder inzicht te verschaffen in de historische convergentie c.q. divergentie van het Belgische en het Nederlandse Nederlands. Op het synchrone vlak staat onderzoek naar de stratificationele aard van de standaardtaal in Nederland en Vlaanderen centraal.
Binnen het CONDIV-project is bewust geopteerd voor onderzoek op basis van spontaan tot stand gekomen, reëel taalgebruik in plaats van d.m.v. enquêtes geëliciteerde gegevens. Hoewel enquêtes ontegensprekelijk hun nut bewijzen bij het vaststellen van attitudes van taalgebruikers t.o.v. bepaalde taalfenomenen (cf. Geeraerts, Grondelaers & Speelman 1999: 57-64 en 133 e.v.), houden ze voor de vaststelling van lexicale variatie het gevaar in dat ze een capaciteit veronderstellen die taalgebruikers wellicht niet bezitten, i.e. het vermogen om adequaat te rapporteren over de flexibiliteit waarmee ze woorden hanteren (cf. Geeraerts, Grondelaers & Bakema 1994: 17 e.v., en Grondelaers 2000: 60 e.v.).
Dit artikel is gewijd aan het CONDIV-corpus, een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. De opbouw van het artikel is als volgt. Paragraaf 1 bevat een overzicht van de verschillende corpuscomponenten en hun omvang. In paragraaf 2 gaan we dieper in op de linguïstische specificiteit van de internettaal die het corpus bevat, en paragraaf 3 is gewijd aan de diachrone component van het CONDIV-corpus. In de slotparagraaf vatten we kort samen.
Alvorens we de samenstelling van het CONDIV-corpus nader toelichten, moet nog ingegaan worden op de vraag of er geen corpora met bovenstaande kenmerken voorhanden zijn. Qua omvang zijn de nauwste verwanten van het CONDIV-corpus de INL-corpora, en dan vooral het 27 en het 38 Miljoen Woorden Corpus. Hoewel beide corpora getagd werden (waardoor ook op woordsoortelijke informatie gezocht kan worden), zijn ze slechts beperkt bruikbaar voor ons onderzoek. Nog afgezien van het terechte bezwaar dat Verkuyl (1998: 62) tegen de dubieuze tekstselectie in het 38 Miljoen Woorden Corpus heeft, zijn de INL-corpora geografisch te onevenwichtig samengesteld: het 27 Miljoen Woorden Corpus bevat geen Belgisch materiaal, en in het 38 Miljoen Woorden Corpus is het Belgische materiaal beperkt tot teksten uit 50 afleveringen van de Belgische kwaliteitskrant De Standaard. Het spreekt vanzelf dat deze asymmetrie onderzoek naar de specifieke linguïstische aard van het Belgische Nederlands nagenoeg onmogelijk maakt (zie in dit verband ook de kritiek in Geeraerts & Bakema 1993).
2    De samenstelling van het CONDIV-corpus

zeer informeel zeer formeel
(geen redactionele controle) (veel redactionele controle)
Internet Kranten

IRC Usenet Massakranten Kwaliteitskranten
Regionaal Nationaal

N (6.965.291) (7.748.436) De Limburger
(1.680.636) De Telegraaf
(1.590.581) NRC Handelsblad
(1.520.064)

B (8.207.007) (4.980.780) Het Belang
van Limburg
(3.012.330)
De Gazet van
Antwerpen
(3.068.405)
Het Laatste
Nieuws
(3.486.911) De Standaard
(3.228.910)

Tabel 1      Overzicht van de geëxcerpeerde bronnen en hun omvang²

In het CONDIV-corpus zijn het Nederlandse subcorpus - dat in totaal 20.338.929 woorden telt -, en het Belgische subcorpus - dat 27.058.652 woorden telt - nagenoeg in evenwicht. Het totale corpus is 47.397.581 woorden groot.
Het corpus bestaat uit twee soorten taalmateriaal. In de sectie krantentaal hebben we een onderscheid gemaakt tussen kwaliteitskranten zoals De Standaard en het NRC Handelsblad - die doorgaans voor de maatschappelijke en culturele bovenlaag van het krantenlezende publiek bedoeld zijn -, en massakranten zoals De Telegraaf en Het Laatste Nieuws - die voor een breder en minder veeleisend lezerspubliek bestemd zijn. Er zijn nationale massakranten - zoals Het Laatste Nieuws en De Telegraaf -, maar ook regionale massakranten³ zoals Het Belang van Limburg, De Gazet van Antwerpen of De Limburger, die zich thematisch vooral tot het nieuws in één regio beperken.
Naast krantenmateriaal bevat het CONDIV-corpus ook Internettaal. Uit Geeraerts, Grondelaers & Speelman (1999) weten we dat het incorrect is het Nederlands als een monostratisch gegeven te beschouwen. Tussen standaardtaal en dialect bevindt zich namelijk tenminste één - maar wellicht meerdere - tussenniveau(s) waarop een hogere graad van informaliteit samengaat met een toenemende mate van geografische specialisatie: naarmate taalgebruikers in minder formele communicatiesituaties terechtkomen drukken ze zich in een regionaler klinkend register uit dat nochtans niet helemaal dialectisch is. In recente publicaties wordt dat register onder meer "tussentaal" (Taeldeman 1992: 33-52), "verkavelings-Vlaams" (Van Istendael 1993: 116), of "soap-Vlaams" genoemd (Geeraerts 1999: 232)⁴ .
Omdat het onmogelijk is a priori vast te stellen hoeveel tussenstrata precies onderscheiden moeten worden, gaan we niet in de eerste plaats op zoek naar taalgebruik dat mogelijk representatief is voor een bepaald stratum, maar vertrekken we veeleer van verschillende types taalsituaties als onafhankelijke variabele, en beschouwen we het daarin gebruikte taalgebruik als afhankelijke variabele. Stratificationele (of stilistische) variatie accommoderen we dan door taalmateriaal te vergelijken uit vijf stilistisch verschillende taalsituaties, die we in tabel 1 kunnen uitzetten op een as van "zeer informeel" tot "zeer formeel". Recht evenredig met de formaliteit van een taalsituatie is de mate van redactionele controle op de taalproductie. Die is in krantentaal uiteraard het grootst, want krantenteksten worden niet alleen door de journalisten die ze schrijven nagekeken, maar ook door eindredacteurs en/of taalcorrectoren die vaak nog ingrijpen in spelling en formulering. De nadelige gevolgen van die ingrepen - zie onder meer Verkuyl (1998: 62) - hebben we trachten te beperken door in het CONDIV-corpus twee types spontaan tot stand gekomen, informele internettaal te integreren die we in de volgende paragraaf toelichten.
3    Internettaal
3.1    Internet Relay Chat
IRC - Internet Relay Chat - is een module waarmee internetsurfers online met elkaar kunnen communiceren; via een IRC-client logt men in op één of meer chatkanalen zoals #Vlaanderen, #Leuven of #mp3, die gewoonlijk surfers uit één regio of stad - of uit een belangengroep zoals de mp3-gebruikers - verenigen en in principe over een vooraf vastgestelde topic discussiëren.⁵ Omdat de meeste IRC-clients een log-optie bevatten die IRC-conversatie naar digitale bestanden wegschrijft, is het in principe vrij makkelijk om IRC-taal te oogsten.⁶
Wat IRC linguïstisch gezien zo interessant maakt is dat het een variant van het Nederlands genereert die het best gedefinieerd kan worden als "geschreven gesproken Nederlands". IRC-ers trachten tijdens het schriftelijke converseren zo goed mogelijk een conversationeel spreektempo te benaderen en ze laten bij voorkeur de dwang van de standaardtaalnorm en de correcte spelling varen (zie Bays 1998, Hentschel 1998), hetgeen op de Belgische IRC-kanalen tot kleurrijk taalgebruik vol dialectismen en spreektaalfenomenen als enclisie (kunde, hebde), proclisie (kzijn) en t-deletie in voegwoorden, complementizers en persoonsvormen (wa, da, moe) leidt. Vergelijk de volgende passage uit het Belgische chatkanaal "#belgium", waaruit de voorbeelden in de vorige zin afkomstig zijn:

1. <boink> thebuzz, komde gij ier gewoon reklaam maken of wa?
<SarAHken> loooooooooooooooooooooooooootje !
<King_John> jaja
<atttila> daar kunde ook al een goeie pc voor kopen zenne
* DeepStar ((((shakes))) lotje
<Gonzy> lotjeeeeeeeeeeeeuuuuuuuuuuuuuuh
<thebuzz> neen, gewoon eens vragen, maar ben nu al weer weg
<SarAHken> lotje : how are you !? long time no see
<boink> thebuzz, ge moe daarvoor nie frutten ;)
<King_John> zijde weg buzz?
<Grooveke> atttila : voor 92000 ballen ebde nog gene goeie pc
<King_John> allé jong
<thebuzz> ja, kzijn weg, nog een beke gaan werken
<King_John> ah... ciao
<atttila> jawel jong
<atttila> voor 92000
<atttila> hebde toch al
<King_John> ne wreed schone computer
<atttila> nen pentium II mmx 233

Een typisch kenmerk van IRC is regionaal antagonisme tussen Nederland en België: Belgische kanalen weren doorgaans Nederlandse surfers, en Belgische surfers zijn evenmin welkom op Nederlandse kanalen. Voor de linguïst is die regionale spanning uiteraard voordelig, omdat ze tot quasi homogene Nederlandse en Belgische corpora van spontaan tot stand gekomen, maximaal informeel Nederlands leidt. Voorbeeld (2) bevat ter illustratie een gelijkaardig fragment IRC-taal, maar dan uit het Nederlandse kletskanaal "#amsterdam":

2. * DJ_DREAMS moe gaan kokuh...
<DJ_DREAMS> mzzls!!
<fly_> wat voor modum heb je ?
<DJ_DREAMS> 33.6
<fly_> hmm
<DJ_DREAMS> maar da moet ie makkelijk kennuh haluh...
<fly_> ondersteunt jou perfider geen 55.6?
<fly_> profider dus
<DJ_DREAMS> maark ga nu kokuh anders gaan uhr hier een paar uit hun dakkiej...
<fly_> ok mna
<fly_> mzzls
<DJ_DREAMS> jewel maar da heb ik een keer verkeerd gdaan op muh modem...
<DJ_DREAMS> nou kenk muh instellingen niej meer trug vinden...
<DJ_DREAMS> is behoorlijk complex modem...
<DJ_DREAMS> omgeboude aster 4...
<fly_> hm kut
<DJ_DREAMS> en die staat nu vast op 14.4.....
<fly_> whooo:(
* DJ_DREAMS zit nu achter laptop...
<DJ_DREAMS> sown ibm ding...

Ook in (2) treffen we een schriftelijke weergave van gesproken Nederlands aan, met uitspraakspelling van typische "hollandismen" als de geronde schwa (kennuh, haluh), [i:]-diminutieven (dakkiej), diftongering van lange klinkers (sown), enz..
IRC-taal heeft drie mogelijke nadelen voor de linguïst. De erbarmelijke spelling bemoeilijkt om te beginnen de automatische extrahering uit het corpus van het taalfenomeen dat men wil onderzoeken. Een fundamenteler nadeel van IRC-materiaal is de algemene afwezigheid van lange zinnen, en de geringe(re) kans op het voorkomen van complexe taalfenomenen (zoals bvb. volledige grammaticale constructies) die daarmee samenhangt. Ter compensatie van die vermoedelijke schaarste hebben we een relatief veel grotere portie IRC-materiaal in het corpus geïncludeerd.⁷ Omdat er, ten derde, verschillende conversaties simultaan plaatsvinden - zoals vooral uit het Belgische voorbeeld blijkt - wordt de natuurlijke discursieve continuïteit niet zelden onderbroken, en daarom bevatten IRC-conversaties opvallend veel meer "repair" strategieën voor slecht begrepen of te laat geproduceerde vragen of antwoorden.
3.2    Usenet
In de internetmodule Usenet wordt in verschillende "newsgroups" over tal van onderwerpen gediscussieerd, zij het dan offline, door middel van e-mails die de gebruiker via "nieuwslezers" als Agent aan een bestaande "thread" van e-mailboodschappen toevoegt. Wie usenetmateriaal aan zijn corpus wil toevoegen kan de afzonderlijke boodschappen één voor één naar overkoepelende bestanden wegschrijven, of een procedure schrijven die dat automatisch doet.⁸ Het CONDIV-corpus bevat taalmateriaal uit discussieforums over (onder meer) computer- en internettechniek, auto's en motoren, reizen, wetenschap, politiek en sport.⁹
Omdat e-mail een veel minder direct communicatiemedium is dan IRC (debatteerders kunnen hun bijdrage nalezen alvorens ze te versturen), en omdat de operatoren enkel beschaafde nieuwsgroepen op het net aanbieden, is het talige register dat op Usenet gebruikt wordt veel beschaafder en gepolijster dan op IRC, al willen de gemoederen - in het bijzonder in politieke discussies - al eens hoog oplopen. Voorbeeld (3) bevat een uittreksel uit het Belgische discussieforum "be.politics":

3. {CD:er}
{CD:br}
{CD:bc}Newsgroups: be.politics,nl.politiek,soc.culture.belgium
{CD:bc}Subject: Re: klacht tegen Wim Elbers
{CD:bc}From: paul@indigoproductions.be (Paul Goris)
{CD:bc}Date:veThis_>364F0C5A.7CCD@lvb.net<3653337a.106881606@news.online.be> <72p186$c3m$1@news3.Belgium.EU.net>
<365067b4.24874836@news.online.be>
<72rgs5$jkb$6@mach.vub.ac.be>
In article <72rgs5$jkb$6@mach.vub.ac.be>, apardon@rc4.vub.ac.be (Antoon Pardon) wrote:

[.....]
{CD:bc}>
{CD:bc}>Je kan niet alles via de wet oplossen. Als je alles
{CD:bc}>waarvan je denkt dat het verboden zou moeten zijn
{CD:bc}>inderdaad gaat verbieden dan heb je ofwel ook een hele
{CD:bc}>hoop dingen verboden waarvan mensen gaan denken hoe
{CD:bc}>men het in hemelsnaam in zijn hoofd kon halen om zoiets
{CD:bc}>te verbieden ofwel heb je zo'n gedetaileerde lijst van wat
{CD:bc}>mag en wat niet mag dat niemand nog gerust kan zijn dat
{CD:bc}>wat hij doet legaal is want er zou maar eens ergens een
{CD:bc}>element in de lijst zijn waar men net niet aan denkt.
In het algemeen is dit waar. Volgens de logica volgt de onoirbaarheid
van racisme uit andere wetten. Door de veelheid van inbreuken of
een speciale sociale relevantie op een gegeven tijdstip kan het
invoeren/handhaven van een antiracisme wet beargumenteerd
worden. Voor mij is het niet essentieel.

De structuur en de samenstelling van het usenetmateriaal vereisen enige technische toelichting. Anders dan bij IRC-kanalen worden Belgische nieuwsgroepen om te beginnen vrij frequent bezocht door niet-Belgische gebruikers, wier bijdragen uiteraard niet in het Belgische corpus thuishoren. Daarnaast zijn de individuele bijdragen zelden in hun geheel bruikbaar: debatteerders hebben net zoals bij normale e-mailcommunicatie de gewoonte om ten behoeve van de transparantie van het debat specifieke punten uit vorige bijdragen waarop ze reageren in de eigen bijdrage te kopiëren. En gezien de oorspronkelijke mail waarop gereageerd wordt meestal reeds in het corpus zit, vormen die "citaten" - die niet zelden enkele paragrafen lang zijn - hinderlijke en statistisch vertekenende doublures die bij voorkeur uit de tellingen geweerd worden. Het zou echter onverstandig zijn de citaten fysisch uit het corpus te verwijderen:¹⁰ de verwijzing van het (door ons schuingedrukte) dit in de eerste zin van de laatste paragraaf van (3), bijvoorbeeld, zou bij ontstentenis van de gekopieerde passages onduidelijk zijn.
Om deze problemen structureel op te lossen werd een posthoc filter ontwikkeld die niet-Belgische mails uit de gedownloade bestanden deleert, en uit vorige berichten geciteerd materiaal markeert. De CAML-filter - Condiv Ad Hoc Markup Language - maakt in hoofdzaak gebruik van de identificatiegegevens die per afzonderlijke bijdrage opgeslagen wordt. Zoals de beginregels van (3) illustreren wordt voor alle mails in een "paspoort" gespecificeerd in welke Newsgroups ze gepost zijn (dat kunnen er - zoals het voorbeeld toont - verschillende zijn), wat het (ruime) subject is waarover gediscussieerd wordt, wie ze verzonden heeft - het emailadres van de afzender in de From-lijn -, en de date waarop dat gebeurde.
De CAML-tool verwijdert uit alle Belgische bestanden de mails die verstuurd zijn door debatteerders waarvan het emailadres *@*.nl is, en uit de Nederlandse bestanden alle mails van *@*.be-afzenders. Deze procedure zorgt er onder meer voor dat de bijdrage in (3) uit het Nederlandse corpus verwijderd wordt, waar hij blijkens de Newsgroups-opgave "nl.politiek" anders in terecht gekomen zou zijn. Behalve Nederlandse bijdragen, vinden we in Belgische nieuwsgroepen niet zelden ook interpellaties van Franstalige Belgen (bijvoorbeeld in discussies over communautaire aangelegenheden). Om die bijdragen te verwijderen bevat CAML een beperkt lexicon van Franse functiewoorden die - wanneer ze aangetroffen worden - aantonen dat de betreffende boodschap anderstalig is, en dus verwijderd mag worden. Tenslotte zorgt CAML ook voor een beperkte markup: omdat alle mails met de Newsgroups-lijn beginnen, kan het begin en het einde van elke mail met respectievelijk de tags {CD:br} en {CD:er} gesignaleerd worden. De geciteerde passages uit vroegere mails - die de machine aan het prefix ">" herkent - worden bovendien met de tag "{CD:bc}" gemarkeerd, net zoals het identificatiepaspoort met de Newsgroups-, de Subject-, de From- en de Date-lijn. Op die manier kan de onderzoeker zich bij de digitale ontsluiting van de data - die in het CONDIV-project met de corpus-tool Abundantia Verborum gebeurt ¹¹ (Speelman 1997) - beperken tot de delen van het usenetcorpus die niet met {CD:bc} gemarkeerd zijn.
4    Het diachrone corpus
Gezien de diachrone ambitie van het CONDIV-project bevat het corpus dat hier aan de orde is ook een diachrone dimensie, waarop materiaal uit 1958, 1978 en 1998 gecontrasteerd wordt. Omdat IRC en Usenet recente mediafenomenen zijn kunnen ze niet ingevuld worden voor de oudere periodes, en daardoor bevat het diachrone corpus alleen oudere tegenhangers van de kranten. De afwezigheid van elektronisch beschikbare historische krantenedities noopte ons ertoe krantenmateriaal uit 1958 en 1978 in te scannen ¹² Dat het diachrone corpus qua omvang beperkter is dan het synchrone, is een rechtstreeks gevolg van de hoge kostprijs (en de grote foutenmarge) die met het inscannen van sterk verzuurde, poreuze krantenpagina's gepaard gaat. De diachrone corpuscomponenten worden toegelicht in Tabel 2:

Tabel 2       De diachrone component van het CONDIV-corpus
BE NL

1958 De Standaard
De Gazet van Antwerpen NRC Handelsblad
(toen Nieuwe Rotterdamsche Courant)

1978 De Standaard
De Gazet van Antwerpen NRC Handelsblad
(toen Nieuwe Rotterdamsche Courant)

5     Conclusies
In vergelijking met bestaande corpora geschreven Nederlands biedt het CONDIV-corpus het belangrijke voordeel dat het regionaal, stilistisch, en diachroon gecontroleerd werd. De verticale as van Tabel 1 symboliseert de regionale dimensie waarop Nederlands Nederlands en Belgisch Nederlands met elkaar gecontrasteerd worden. Op de horizontale as worden de verschillende bronnengroepen op een stratificationeel-stilistische dimensie gesitueerd. Van links naar rechts in Tabel 1 treedt er een progressieve formalisering en de-regionalisering op: de IRC'er richt zich uitsluitend tot zijn eigen overbeschermde virtuele forum. De usenetbezoeker wenst over het algemeen constructief te discussiëren en is veel minder restrictief wat lidmaatschap van de discussiegroep betreft; hij past zijn taalgebruik dan ook aan die grotere ernst en toegankelijkheid aan. Wie in een regionale massakrant publiceert heeft al gauw een hele provincie als potentieel lezerspubliek, en het bereik van nationale massakranten en kwaliteitskranten wordt slechts beperkt door de staatsgrenzen. Parallel met de formaliteit van de taalsituatie, neemt van links naar rechts in de tabel ook de mate van "redactionele controle" op de taalproductie toe. In het IRC-materiaal is die redactionele controle gezien de eenzame en éénmalige online schrijfarbeid van de auteur minimaal: wie IRC't tracht te schrijven zoals hij spreekt, met alle orthografische, stilistische en retorische onvolkomenheden vandien. De usenetgebruiker daarentegen heeft veel meer redactionele controle over zijn bijdragen, omdat hij ze - alvorens hij ze aan de "thread" toevoegt - kan nalezen, en indien nodig en gewenst kan corrigeren. Bij de kranten wordt de redactionele controle zelfs verdubbeld, omdat de auteur de ultieme controle over het artikel dat hij net geschreven heeft aan een eind- of hoofdredacteur overdraagt, die niet zelden nog ingrijpt in spelling en formulering.
Bibliografie
Bays, H. (1998). Framing and face in internet exchanges: a socio-cognitive approach. Linguistik Online 98/1. Online publicatie op http://viadrina.euv-frankfurt-o.de/~wjournal/bays.html
Geeraerts, D. (1999). Noch standaard, noch dialect. 'Tussentaal' in Vlaanderen en Nederland. Onze Taal 68, 232-235.
Geeraerts, D. & P. Bakema (1993). Materiaalverzamelingsmethodes in lexicologie en lexicografie. In: A. van der Veen (ed.), Op je woorden passen. Voordrachten gehouden tijdens het symposium van het Instituut voor Nederlandse Lexicologie in Antwerpen op 18 januari 1993, 10-22. Leiden: Instituut voor Nederlandse Lexicologie.
Geeraerts, D., S. Grondelaers & P. Bakema (1994). The structure of lexical variation. Meaning, naming, and context. (Cognitive Linguistics Research 5). Berlijn: Mouton de Gruyter.
Geeraerts, D., S. Grondelaers & D. Speelman (1999). Convergentie en divergentie in de Nederlandse woordenschat. Een onderzoek naar kleding- en voetbaltermen. Amsterdam: Meertensinstituut.
Grondelaers, S. (2000). De distributie van niet-anaforisch er buiten de eerste zinsplaats. Sociolexicologische, functionele en psycholinguïstische aspecten van er's status als presentatief signaal. Doctorale dissertatie K.U. Leuven.
Harrison, S. (1998). E-mail discussions as conversation: moves and acts in a sample from a listserv discussion. Linguistik Online 98/1. Online publicatie op http://viadrina.euv-frankfurt-o.de/~wjournal/harrison.htm
Hentschel, E. (1998). Communication on IRC. Linguistik Online 98/1. Online publicatie op http://viadrina.euv-frankfurt-o.de/~wjournal/irc.html
Herring, S. (1996). Computer-mediated communication: linguistic, social and cross-cultural perspectives. Amsterdam: Benjamins.
Huber, O. (1989). Representatie van tekstcorpora in de computer. In: B. de Haar & K.H. van Reenenstein (red.), Corpusgebaseerde woordanalyse. Jaarboek 1989. Amsterdam: V.U. Amsterdam, Vakgroep Taalkunde.
Istendael, G. Van (199310). Het Belgisch labyrinth. Wakker worden in een ander land. Amsterdam: De Arbeiderspers.
Ko, Kwang-Kyu (1996). Structural characteristics of computer-mediated language: a comparative analysis of Interchange discourse. Electronic Journal of Communication 6/3. Online publicatie op http://ublib.buffalo.edu/libraries/ eresources/ejournals/records/ejc.html
Labov, W. (1972). Some principles of linguistic methodology. Language in Society 1, 97-120.
Paolillo, J. (1999). The virtual speech community: social network and language variation on IRC. Journal of Computer-Mediated Communication 4/4. Online publicatie op http://jcmc.huji.ac.il/paolillo.htm.
Speelman, D. (1997). Abundantia Verborum. A computer tool for carrying out corpus based linguistic case studies. Doctorale dissertatie K.U.Leuven.
Stroop, J. (1998). Poldernederlands. Waardoor het ABN verdwijnt. Amsterdam: Bert Bakker.
Taeldeman, J. (1992). Welk Nederlands voor de Vlamingen?. Nederlands van Nu 40, 33-52.
Verkuyl, H.J. (1998). O corpora, O mores. Nederlandse Taalkunde 3, 60-63.
Noten
[1] Katrien Deygers, Stefan Grondelaers, Hilde Van Aken en Vicky Van Den Heede zijn de uitvoerders van het CONDIV-project. Dirk Speelman is afdelingsinformaticus van het Departement Linguïstiek van de K.U.Leuven; hij verzorgde de digitale opmaak van het CONDIV-corpus en de elektronische ontsluiting. Geïnteresseerden kunnen voor onderzoeksdoeleinden gebruik maken van het Internetmateriaal in het corpus; voor inlichtingen en aanvragen, e-mail Stefan Grondelaers (stefan.grondelaers@arts.kuleuven.ac.be) of Vicky Van Den Heede (vicky.vandenheede@rug.ac.be).
[2] Niet opgenomen in Tabel 1 zijn een corpus Belgische en Nederlandse Staatsbladtaal ter grootte van resp. 1.074.309 en 833.911 woorden.
[3] In verband met de Belgische en Nederlandse regionale massakranten moet opgemerkt worden dat de eerste wel maar de tweede (meestal) niet nationaal verspreid worden.
[4] Voor zover we kunnen nagaan bestaan er geen specifieke benamingen voor het Nederlands-Nederlandse tussenregister: de term "Poldernederlands" (Stroop 1998) is niet helemaal equivalent met de opgegeven termen omdat hij voornamelijk naar een substandaard uitspraakvariant van het Nederlandse Nederlands verwijst.
[5] In realiteit zijn er echter nauwelijks thematische en stilistische beperkingen op IRC, dat niet zonder reden als de meest "anarchistische" internetmodule bekend staat. Voor een overzicht van de sociologische en linguïstische kenmerken van Internet Relay Chat, zie onder meer Ko (1996), Hentschel (1998), Bays (1998), Paolillo (1999), en vooral Herring (1996).
[6] In werkelijkheid veronderstelt IRC-taal verzamelen enige handigheid en diplomatie. IRC-kanalen zijn namelijk sterk hiërarchisch georganiseerd: "owners" die een bepaald kanaal opgestart hebben geven aan "operators" die ze vertrouwen beperkte politionele machten, zoals het verwijderen van ongewenste gasten, en het doen naleven van de kanaalvoorschriften. De meest kapitale inbreuk op die voorschriften is "idlen", i.e. wel ingelogd zijn maar niet converseren. Omdat idlers onverbiddelijk verwijderd worden, is het voor de corpusbegerige linguïst doorgaans noodzakelijk één van de operatoren in vertrouwen te nemen en hem toelating te vragen om te mogen loggen zonder tijdelijk of permanent verwijderd te worden.
[7] Het Belgische en het Nederlandse IRC-materiaal leverden niettemin 444 resp. 261 presentatieve zinnen op van het type Op het dak staat (er) een schoorsteen (cf. Grondelaers 2000: 86 e.v.).
[8] Eddy de Roos van de Universiteit Gent schreef voor ons een dergelijke procedure, en we zijn hem daar ten zeerste erkentelijk voor.
[9] Over de linguïstische aspecten van Usenet en andere email-discussieforms, zie onder meer Harrison (1998).
[10] Over het verwijderen van ongewenste informatie uit tekstcorpora, en de gevaren daarvan, zie Huber (110810: 62).
[11] Meer informatie over Abundantia Verborum is te vinden op http://wwwling.arts.kuleuven.ac.be/genling/abundant.
[12] De scanopdracht werd uitgevoerd door de gespecialiseerde firma Scan Sys uit het Nederlandse Leidschendam. Wij zijn de Centrale Bibliotheek van de K.U.Leuven dankbaar voor.

Tabel 1 Overzicht van de geëxcerpeerde bronnen en hun omvang²

zeer informeel zeer formeel (geen redactionele controle) (veel redactionele controle)
Internet	Kranten
IRC	Usenet	Massakranten	Kwaliteitskranten
Regionaal	Nationaal
N	(6.965.291)	(7.748.436)	De Limburger (1.680.636)	De Telegraaf (1.590.581)	NRC Handelsblad (1.520.064)
B	(8.207.007)	(4.980.780)	Het Belang van Limburg (3.012.330) De Gazet van Antwerpen (3.068.405)	Het Laatste Nieuws (3.486.911)	De Standaard (3.228.910)

Tabel 2 De diachrone component van het CONDIV-corpus
	BE	NL
1958	De Standaard De Gazet van Antwerpen	NRC Handelsblad (toen Nieuwe Rotterdamsche Courant)
1978	De Standaard De Gazet van Antwerpen	NRC Handelsblad (toen Nieuwe Rotterdamsche Courant)

[ Naar het begin van deze pagina ] [ Naar de DigiTaal-openingspagina ]

Deze pagina is aangemaakt op 21-06-2001 door Amy Lang