TextSTAT TextSTAT - Simpel Tekst Analyse Tool / Concordantie-software

TextSTAT - Simpel Tekst Analyse Tool

Concordantie-software voor Windows, GNU/Linux en MacOS

TextSTAT is een eenvoudig programma voor de analyse van teksten. Het programma leest tekst-files (in diverse coderingen) en HTML-pagina's (ook direct uit het internet). Het programma produceert woordfrequentie-lijsten en concordanties van deze bestanden. TextSTAT heeft een web-spider waarmee u een willekeurig aantal pagina's van een bepaalde website kunt toevoegen aan een TextSTAT-corpus. De geïntegreerde news-reader leest berichten van usenet newsgroups en maakt daarvan een corpus.
TextSTAT leest ook MS Word-bestanden en OpenOffice Writer-bestanden. U kunt deze bestanden zonder converteren direct toevoegan aan een corpus.
Om binnen de teksten te zoeken kunt u reguliere expressies gebruiken. Dat levert veelvuldige en zeer machtige zoekmogelijkheden op. TextSTAT is (omdat het intern met unicode werkt) voorbereid op de verwerking van teksten in diverse talen en met diverse coderingen. Het user interface kan worden omgeschakeld in verschillende talen.

Om u een indruk te geven van TextSTAT, hier een paar screenshots:
Windows XP: Woordvormen met frequentiegegevens, concordanties, een zoekbegrip met context, concordanties (Engels).
Linux (Engels/Grieks): Woordvormen/-frequenties, Zoekbegrip met context (Dank aan Nikos Kouremenos).
MacOS X (Engels): Webspider, Woordvormen/-frequenties (Dank aan Eric Nieuwland).

Documentatie:
Er is een mooie Quickstart Guide to text analysis with TextSTAT van het 'Humanities Resource Centre' (Princeton University). En Gena Bennett heeft een nuttige TextSTAT 2.7 User's Guide geschreven.

Bovendien is er een leuke video-tutorial van Zarah Weiß (beschikbaar via YouTube).


NIEUW: TextSTAT 3 (bèta)

Bij deze nieuwe versie van TextSTAT is er van alles veranderd. Hier een paar belangrijke wijzigingen:

  • TextSTAT werkt nu zowel onder Python 2 (vanaf 2.7) als ook onder Python 3 (vanaf 3.4). Naast Python zelf heeft u vooral Tkinter nodig (zit er meestal al bij). Voor volledige functionaliteit onder MS Windows moet u bovendien de Python Windows Extensions installeren (neem de versie die past bij de geïnstalleerde Python-versie).
  • De user interface is grondig vernieuwd. Daardoor moet het programma nu niet alleen onder Windows en Linux draaien, maar vooral ook beter onder MacOS X.
  • Het database-formaat voor de corpora is veranderd (nu SQLITE). Vooral met grotere corpora zal dat beter werken. Bestaande corpora (TextSTAT 2) kunnen niet meer direct worden geopend, maar moeten worden geïmporteerd in een nieuw corpus.
  • Bestanden in het corpus kunnen nu nog worden bewerkt. Dat is vooral handig bij bestanden die uit het internet gedownload zijn (bijv. om reklame of navigatie-elementen te verwijderen). Klik in de corpus-tab gewoon op de bestandsnaam.
  • PDF-bestanden kunnen worden toegevoegd aan een corpus (werkt alleen onder Linux!).
  • En er zijn nog diverse andere details aangepast, bijv. bij het converteren van de teksten, bij het exporteren van concordantielijsten, bij de licentie (nu CC BY-SA)...

De nieuwe versie kunt u hier downloaden, nu nog bèta en alleen als script-versie (u heeft dus een Python installatie nodig). Binaire versies voor Windows en MacOS zullen later volgen:

ATTENTIE: Dit is een bèta versie. Er kunnen nog bugs inzitten en bovendien verandert het database formaat misschien nog.

Feedback op deze bèta-versie is zeer welkom!


Logo TextSTAT 2

De actuele versie 2.9 van het programma bevat geen essentiële nieuwe mogelijkheden, het is vooral een versie waarin een heleboel fouten en foutjes zijn gecorriceerd (vooral voor Linux-gebruikers). Het grafische programma-interface kent nu de volgende talen: Engels, Duits, Nederlands, Portugees, Spaans, Katalaans, Galcicisch, Frans, Italiaans, Pools, Tsjechisch en Fins (Suomi).

Download (binaire versie voor Windows XP/Win7):
TextSTAT 2.9c voor Windows (ca. 8 MB, van 20-02-2014)

Deze versie bevat alles, wat u nodig heeft om TextSTAT onder Windwos te draaien. U moet het installatiebestand 'uitpakken' naar een willekeurige map. Ga vervolgens met de verkenner naar deze map en start het programma door een dubbele click op 'TextSTAT.exe'. Als u een TextSTAT-icon op uw desktop wilt, dan moet u daar zelf voor zorgen.
Deïnstallatie: Omdat TextSTAT uw registry en uw systeem met rust laat, kunt u het programma gemakkelijk deïnstalleren, door gewoon de complete programma-directory te wissen. Dat is alles.

Download (Python Sourcecode):
TextSTAT 2.9c Sourcecode (ZIP-bestand, ca. 150 KB, van 20-02-2014)

TextSTAT is geschreven in Python en functioneert daarom onder Windows en Linux (getest) en ook op MAC-systemen.
Om de sourcecode-versie te gebruiken, heeft u een actuele versie van Python nodig (vanaf 2.5, liefst 2.7; TextSTAT werkt NIET met Python 3.0). Onder Windows kunt u bijv. de ActivePython-distributie installeren, die alles heeft wat u nodig heeft (Windows Extensions, Tkinter). Onder Linux zijn er natuurlijk geen Windows extensies - de export van gegevens naar MS Word en Excel werkt dus niet. Verder draait TextSTAT prima onder GNU/Linux en ook op de Mac. U moet alleen een actuele Python-distributie installeren (2.5 of hoger; Tkinter moet ook geïnstalleerd zijn, wat - vooral op de Mac - niet vanzelfsprekend is). Het programma wordt gestart door TextSTAT.pyw te starten.


Literatuur en (vergelijkende) besprekingen:

  • Bennett, Gena R. (2010), Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. pp. 144. ISBN 978-0-472-03385-0. (Link)
  • Aldo Benini (2010), Text Analysis under Time Pressure Tools for humanitarian and development workers. Washington, DC. (Link)
  • Krajka, Jarosław (2007), Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections. CORELL: Computer Resources for Language Learning 1, 36-55. (Link)
  • Daniel Wiechmann & Stefan Fuhs (2006), in: Corpus Linguistics and Linguistic Theory 2-1, 107-127. (Link)
  • Luciana Diniz (2005), in: Language Learning & Technology Vol. 9, No. 3, pp. 22-27. (Link)


Er is ook nog een eerdere (verouderde) versie: TextSTAT 1.52 voor Windows (ZIP-bestand, ca. 2,3 MB). Het enige voordeel van deze versie is een uitgebreide documentatie. Deze documentatie kunt u ook online bekijken: Duitse versie, Engelse versie of Franse versie.


TextSTAT is vrije software (OpenSource). Het programma mag vrij van kosten worden gebruikt, verveelvuldigd en doorgegeven - zolang het niet wordt gewijzigd. Commerciële distributie van het progamma alleen met toestemming van de auteur. De auteur aanvaard geen aansprakelijkheid voor eventuele fouten in het programma en schade die daardoor zou kunnen ontstaan. De gedistribueerde versies bevatten een licentie-bestand.

Heeft u commentaar, vragen, opmerkingen, suggesties?
Ik ben blij met elke reactie:
Matthias Hüning, <matthias.huening@fu-berlin.de>