TextSTAT TextSTAT - Simples Text Analyse Tool / Konkordanz-Software

TextSTAT - Simples Text Analyse Tool

Konkordanz-Software für Windows, GNU/Linux und MacOS

TextSTAT ist ein einfaches Programm zur Analyse von Texten. Es liest Text-Dateien (in diversen Kodierungen) und HTML-Files (auch direkt aus dem Internet), und es erstellt Wortfrequenz-Listen und Konkordanzen von diesen Files. TextSTAT hat einen eigenen Web-Spider, mit dem Sie eine beliebige Anzahl Seiten einer bestimmten Website zu einem TextSTAT-Korpus zusammenstellen können. Der integrierte News-Reader liest Berichte aus Usenet Newsgroups und macht daraus ein TextSTAT-Korpus.
TextSTAT liest auch MS Word-Dateien und OpenOffice-Dateien. Sie können die Dateien ohne weiteres Konvertieren usw. einfach zu einem Korpus hinzufügen...
Zum Suchen in den Texten können Sie reguläre Ausdrücke verwenden, was Ihnen vielfältige und sehr mächtige Suchmöglichkeiten bietet. TextSTAT ist auf die Verarbeitung von Texten in unterschiedlichsten Sprachen ausgelegt. Da das Programm intern Unicode verwendet, können Dateien in verschiedenen Sprachen und Dateikodierungen verarbeitet werden. Und die Programmoberfläche von TextSTAT kann auf mehrere Sprachen umgestellt werden.

Um Ihnen einen Eindruck von TextSTAT zu vermitteln, gibt es hier einige Screenshots:
Windows XP: Wortformen mit Frequenzangaben, Konkordanzen, Suchwort im Kontext, Konkordanzfenster (Englisch).
Linux (Englisch/Griechisch): Wortformen/-frequenz, Suchwort in größerem Kontext (Dank an Nikos Kouremenos).
MacOS X (Englisch): Webspider, Wortformen/-frequenz (Dank an Eric Nieuwland).

Dokumentation: Es gibt einen Quickstart Guide to text analysis with TextSTAT vom 'Humanities Resource Centre' der Princeton University. Und Gena Bennett hat einen nützlichen TextSTAT 2.7 User's Guide geschrieben.


Logo TextSTAT 2

Die aktuelle Version 2.9 des Programms enthält keine wesentlichen Neuerungen, sondern vor allem einige Fehlerkorrekturen (insbesondere für die Verwendung unter Linux). Das Programm kann jetzt in folgenden Sprachen bedient werden: Englisch, Deutsch, Niederländisch, Portugiesisch, Spanisch, Katalanisch, Galizisch, Französisch, Italienisch, Finnisch (Suomi), Polnisch, Tschechisch.

Download (binäre Version für Windows XP/Win7):
TextSTAT 2.9c für Windows (ZIP-Datei, ca. 8 MB, vom 20.02.2014)

Diese Version enthält alles, was Sie brauchen, um TextSTAT unter Windows verwenden zu können. Sie müssen die Installationsdatei einfach in ein Directory Ihrer Wahl entpacken. Wechseln Sie anschließend mit dem Explorer in dieses Verzeichnis und starten Sie das Programm mit einem Doppelklick auf 'TextSTAT.exe'. Wenn Sie das Programm vom Desktop oder aus dem Startmenü heraus starten wollen, müssen Sie selber eine Verknüpfung erstellen.
Deinstallieren: Da TextSTAT keinerlei Änderungen an der Windows-Registry oder an anderen Systemkomponenten vornimmt, können Sie es sehr einfach wieder deinstallieren. Einfach den Programmordner komplett löschen. Das war's.

Download (Python Sourcecode):
TextSTAT 2.9c Sourcecode (ZIP-Datei, ca. 150 KB, vom 20.02.2014)

TextSTAT ist in Python geschrieben und läuft unter Windows und Linux (da ist es getestet) und auch auf dem Mac (OS X).
Um die Sourcecode-Version verwenden zu können, müssen Sie Python (ab Version 2.5, aktuell ist 2.7; TextSTAT funktioniert noch NICHT mit Python 3.0) installieren. Unter Windows bietet sich die ActivePython-Distribution von ActiveState an, die alles enthält, was Sie brauchen (Windows Extensions, Tkinter). Unter Linux gibt's keine Windows Extensions - da funktioniert halt der Export zu MS Word und Excel nicht. Ansonsten läuft TextSTAT prima unter GNU/Linux, und es sollte auch unter MacOS X funktionieren. Alles was Sie dafür brauchen ist eine aktuelle Python-Distribution (ab 2.5, lieber 2.7; Tkinter muss ebenfalls installiert sein (was vor allem auf dem Mac nicht selbstverständlich ist).


Literatur und (vergleichende) Besprechungen zu TextSTAT:

  • Bennett, Gena R. (2010), Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. pp. 144. ISBN 978-0-472-03385-0. (Link)
  • Aldo Benini (2010), Text Analysis under Time Pressure Tools for humanitarian and development workers. Washington, DC. (Link)
  • Krajka, Jarosław (2007), Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections. CORELL: Computer Resources for Language Learning 1, 36-55. (Link)
  • Daniel Wiechmann & Stefan Fuhs (2006), in: Corpus Linguistics and Linguistic Theory 2-1, 107-127. (Link)
  • Luciana Diniz (2005), in: Language Learning & Technology Vol. 9, No. 3, pp. 22-27. (Link)


Die Vorgängerversion gibt's auch noch: TextSTAT 1.52 für Windows (ZIP-Datei, ca. 2,3 MB). Zu dieser steht - im Gegensatz zur neuen Version - auch eine Dokumentation/Hilfe zum Programm zur Verfügung (die auch in die Download-Version integriert ist). Diesen Text gibt es nicht nur auf Deutsch, sondern auch auf Englisch oder Französisch.


TextSTAT ist freie Software (OpenSource). Das Programm darf kostenlos verwendet, vervielfältigt und weitergegeben werden, solange es unverändert bleibt. Kommerzielle Distribution des Programms nur mit Erlaubnis des Autors. Der Autor übernimmt keinerlei Haftung für eventuelle Programmfehler und eventuell daraus entstandene Schäden. Der Sourcode-Version ist eine eigene Lizenz beigefügt.

Haben Sie Kommentare, Fragen, Anregungen zum Programm?
Ich freue mich über jede Rückmeldung:
Matthias Hüning, <matthias.huening@fu-berlin.de>