TextSTAT 3 - Simples Text Analyse Tool
Konkordanz-Software für Windows, GNU/Linux und MacOS
TextSTAT ist ein einfaches Programm zur Analyse von Texten. Es liest Text-Dateien (in diversen Kodierungen) und HTML-Files (auch direkt aus dem Internet), und es erstellt Wortfrequenz-Listen und Konkordanzen von diesen Files. TextSTAT hat einen eigenen Web Crawler, mit dem Sie eine beliebige Anzahl Seiten einer bestimmten Website zu einem TextSTAT-Korpus zusammenstellen können.
TextSTAT liest auch PDF-Dateien, MS Word-Dateien und LibreOffice-Dateien. Sie können die Dateien ohne weiteres Konvertieren usw. einfach zu einem Korpus hinzufügen...
Zum Suchen in den Texten können Sie reguläre Ausdrücke verwenden, was Ihnen vielfältige und sehr mächtige Suchmöglichkeiten bietet. TextSTAT ist auf die Verarbeitung von Texten in unterschiedlichsten Sprachen ausgelegt. Da das Programm intern Unicode verwendet, können Dateien in verschiedenen Sprachen und Dateikodierungen verarbeitet werden. Und die Programmoberfläche von TextSTAT kann auf mehrere Sprachen umgestellt werden.
Die generierten Frequenz- und Konkordanzlisten können zur Weiterverarbeitung oder Visualisierung als CSV-Datein exportiert werden.
TextSTAT 3 (Juni 2024) jetzt herunterladen:
- TextSTAT für Windows
- TextSTAT für Mac OS (M1+ Chips)
- TextSTAT für Mac OS (Intel Chips)
- TextSTAT für Linux (Debian)
- TextSTAT Quellcode
Dokumentation:
Es gibt eine Kurzanleitung in Englischer Sprache, in der die Installation und die Benutzeroberfläche von TextSTAT erklärt werden.
Disclaimer:
TextSTAT ist freie Software (OpenSource). Das Programm darf kostenlos verwendet, vervielfältigt und weitergegeben werden, solange es unverändert bleibt. Kommerzielle Distribution des Programms nur mit Erlaubnis des Autors. Der Autor übernimmt keinerlei Haftung für eventuelle Programmfehler und eventuell daraus entstandene Schäden. Der Sourcode-Version ist eine eigene Lizenz beigefügt.
Fehler gefunden oder Feedback?
Feedback zu TextSTAT ist sehr willkommen!
Literatur und (vergleichende) Besprechungen zu TextSTAT:
- Bennett, Gena R. (2010), Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. pp. 144. ISBN 978-0-472-03385-0. (Link)
- Aldo Benini (2010), Text Analysis under Time Pressure Tools for humanitarian and development workers. Washington, DC. (Link)
- Krajka, Jarosław (2007), Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections. CORELL: Computer Resources for Language Learning 1, 36-55. (Link)
- Daniel Wiechmann & Stefan Fuhs (2006), in: Corpus Linguistics and Linguistic Theory 2-1, 107-127. (Link)
- Luciana Diniz (2005), in: Language Learning & Technology Vol. 9, No. 3, pp. 22-27. (Link)
Versionsgeschichte
TextSTAT 3.0.0
Bei der neuen major Version von TextSTAT hat sich Einiges getan.
- Nach jahrelangem Stillstand jezt großes Update und Bugfix-Release dank der Zusammenarbeit mit Max Kindler-Mathot.
- Python 2 wird nicht mehr unterstützt
- GUI modernisiert (mithilfe des sv-ttk Themes)
- Update der Datenbankabfragen, damit RegularExpressions effektiver verwendet werden können (mit sqlean)
- Update der diversen Konvertierungsfunktionen, Verwendung besserer Packages (wie html-text, pypdf, docx)
- Eingebauter WebCrawler wurde repariert und modernisiert (mithilfe von requests, beautifulsoup und html-text)
- es gibt jetzt vorgefertigte binäre Distributionen für MacOS, Windows und Linux (Debian)
- diverse kleinere und größere Bugfixes und andere Korrekturen
- Das zugrunde liegende Datenbankformat wurde geändert (TextSTAT verwendet jetzt eine SQLite-Datenbank). Insbesondere bei größeren Korpora sollte sich das positiv auswirken. Bestehende Textkorpora, die mit einer TextSTAT 2-Version erstellt wurden, können daher nicht mehr direkt geöffnet werden. Sie lassen sich aber problemlos in ein neues Korpus importieren. Das neue Standard-Endung für Korpusnamen ist .crp3. Dadurch können Sie die verschiedenen Versionen gut auseinanderhalten.
- Dateien im Korpus lassen sich jetzt nachträglich noch bearbeiten, was vor allem beim Laden von Dateien aus dem Internet hilfreich ist (beispielsweise um Reklame und Navigationselemente zu entfernen). Einfach im Korpus-Tab auf den Dateinamen klicken.
- PDF-Dateien können zu einem Korpus hinzugefügt werden.
TextSTAT 2.9 (veraltet)
Die Version 2.9 des Programms enthält keine wesentlichen Neuerungen, sondern vor allem einige Fehlerkorrekturen (insbesondere für die Verwendung unter Linux). Das Programm kann jetzt in folgenden Sprachen bedient werden: Englisch, Deutsch, Niederländisch, Portugiesisch, Spanisch, Katalanisch, Galizisch, Französisch, Italienisch, Finnisch (Suomi), Polnisch, Tschechisch.
Download (binäre Version für Windows XP/Win7):
TextSTAT 2.9c für Windows (ZIP-Datei, ca. 8 MB, vom 20.02.2014)
Diese Version enthält alles, was Sie brauchen, um TextSTAT unter Windows verwenden zu können. Sie müssen die Installationsdatei einfach in ein Directory Ihrer Wahl entpacken. Wechseln Sie anschließend mit dem Explorer in dieses Verzeichnis und starten Sie das Programm mit einem Doppelklick auf 'TextSTAT.exe'. Wenn Sie das Programm vom Desktop oder aus dem Startmenü heraus starten wollen, müssen Sie selber eine Verknüpfung erstellen.
Deinstallieren: Da TextSTAT keinerlei Änderungen an der Windows-Registry oder an anderen Systemkomponenten vornimmt, können Sie es sehr einfach wieder deinstallieren. Einfach den Programmordner komplett löschen. Das war's.
Download (Python Sourcecode):
TextSTAT 2.9c Sourcecode (ZIP-Datei, ca. 150 KB, vom 20.02.2014)
TextSTAT ist in Python geschrieben und läuft unter Windows und Linux (da ist es getestet) und auch auf dem Mac (OS X).
Um die Sourcecode-Version verwenden zu können, müssen Sie Python (ab Version 2.5, aktuell ist 2.7; TextSTAT funktioniert noch NICHT mit Python 3.0) installieren. Unter Windows bietet sich die ActivePython-Distribution von ActiveState an, die alles enthält, was Sie brauchen (Windows Extensions, Tkinter). Unter Linux gibt's keine Windows Extensions - da funktioniert halt der Export zu MS Word und Excel nicht. Ansonsten läuft TextSTAT prima unter GNU/Linux, und es sollte auch unter MacOS X funktionieren. Alles was Sie dafür brauchen ist eine aktuelle Python-Distribution (ab 2.5, lieber 2.7; Tkinter muss ebenfalls installiert sein (was vor allem auf dem Mac nicht selbstverständlich ist).
TextSTAT 1.5 (veraltet)
Die Vorgängerversion gibt's auch noch: TextSTAT 1.52 für Windows (ZIP-Datei, ca. 2,3 MB). Zu dieser steht - im Gegensatz zur neuen Version - auch eine Dokumentation/Hilfe zum Programm zur Verfügung (die auch in die Download-Version integriert ist). Diesen Text gibt es nicht nur auf Deutsch, sondern auch auf Englisch oder Französisch.
Haben Sie Kommentare, Fragen, Anregungen zum Programm?
Ich freue mich über jede Rückmeldung:
Matthias Hüning, <textstat@niederlandistik.fu-berlin.de>