Parallel corpus Nederlands - Duits
We stellen hier een versie van het Europarl-corpus ter beschikking. Uit de 'source release' hebben we een corpus gegenereerd voor het talenpaar Duits en Nederlands en we hebben dit corpus voorzien van een webinterface.
Europarl Corpus
Zoeken in het Europarl corpus (release v6, 02/2011)
Het parallelle corpus is geëxtraheerd uit de 'proceedings' van het Europees Parlement. Het is samengesteld door Cameron Shaw Fordyce (CELCT), Josh Schroeder en Philipp Koehn (University of Edinburgh). Europarl bevat zo'n 50 mil. woorden per taal.
Een gedetailleerde beschrijving van het corpus vindt u in dit artikel:
Europarl: A Parallel Corpus for Statistical Machine Translation, Philipp Koehn, MT Summit 2005, [ PDF ].
Voor meer informatie over het Europarl-corpus kunt u terecht op de Europarl website. Hier kunt u het hele corpus ook downloaden.