TextSTAT - Simples Text Analyse Tool

© 2001/2002 - Matthias Hüning

Version 1.51 (01.12.2002)

INHALT

1. Einleitung
2. Erstellung eigener Korpora
3. Korpus speichern / öffnen
4. Internet Korpus-Tool
5. Wortformen
6. Suchen/Konkordanz
7. Zitat
8. Suchen mit regulären Ausdrücken
9. Ergebnisse drucken/exportieren/speichern
10. History: Geschichte des Programms
11. Kontakt

1. EINLEITUNG

TextSTAT ist ein Konkordanzprogramm, das auf einfache Handhabung und Internetfunktionalität hin ausgelegt ist. Texte lassen sich zu Korpora zusammenstellen (die auch als solche gespeichert werden können). Das Programm analysiert diese Textkorpora, zeigt Wortfrequenz-Listen und Konkordanzen zu Suchbegriffen. Das Programm ist in Python geschrieben und wird hier als Windows-Programm zur Verfügung gestellt. TextSTAT ist Freeware.

Mit TextSTAT können Sie eine beliebige Menge (na ja, nicht ganz: die Menge wird von Ihrem RAM-Speicher begrenzt...) Text durchsuchen. Sie erfahren wie oft ein bestimmtes Wort vorkommt oder in welchen Kontexten es verwendet wird. Auch Wortkombinationen können untersucht werden.

TextSTAT liegt momentan in drei Sprachversionen vor: Deutsch, Englisch und Französisch. Sie können die Sprache über den Menüeintrag 'Sprache ändern' (unter 'Optionen') einstellen. Um die neue Spracheinstellung zu aktivieren, müssen Sie das Programm beenden und neu starten.

Das Programm ist unter Windows 98 (SE) und Windows XP getestet worden. Es sollte aber auch mit anderen Win32-Versionen funktionieren...

[ TOP ]

2. ERSTELLUNG EIGENER KORPORA

Wenn Sie TextSTAT öffnen, sehen sie einen Fenster mit einer Menüzeile und mehrerern 'Tab-Blättern'. Im Vordergund ist das Tab-Blatt 'Korpus'. Sie können nun Dateien hinzufügen und auf diese Weise zu einem Korpus zusammenstellen. Hierzu gibt es die folgenden Möglichkeiten:
- 'Datei hinzufügen' (über Menüeintrag oder Button)
- 'HTML-Seite(n) hinzufügen' (über Menüeintrag oder Button)

Für beide Möglichkeiten gilt, dass die Datei, die hinzugefügt werden soll, 'platten' Text (also ohne Formatierungen) enhalten muss. Man kann also z.B. keine MS Word-Files einlesen, sondern muss einen solchen Text erst konvertieren. In der Regel wird eine solche Datei dann als ASCII-Text vorliegen (kodiert als 'Latin-1'; das ist auch die Standardkodierung für HTML-Seiten). Dies ist die Standardeinstellung von TextSTAT. Es können aber auch andere Kodierungen verwendet werden, die vorm Einlesen der Datei eingestellt werden müssen (über den Menüeintrag: 'Optionen > Datei-Kodierung'). TextSTAT verarbeitet die Texte intern im Unicode-Format.

HTML-Files können direkt aus dem Internet oder von der eigenen Festplatte eingelesen werden. Bei der ersten Möglichkeit muss die komplette WWW-Adresse (= URL) eingegeben werden, also inklusive 'http://', und es muss natürlich eine Internetverbindung vorhanden sein... Für die zweite Möglichkeit geben Sie einfach den Dateinamen inkl. Pfad ein (also z.B. 'c:\directory\datei.htm'). Standardmäßig werden die HTML-Codes aus den Dateien entfernt. Dies kann aber deaktiviert werden.

[ TOP ]

3. KORPUS SPEICHERN / ÖFFNEN

Sie können die geöffneten Dateien zur späteren Wiederverwendung als Korpus abspeichern (über den entsprechenden Button bzw. den Menüeintrag). Es wird eine Datei angelegt, der Sie einen beliebigen Namen geben können. Es empfiehlt sich, die Korpora in einem separaten Ordner abzulegen.

[ TOP ]

4. INTERNET KORPUS-TOOL

Wenn Sie Dateien aus dem Internet zu einem Korpus zusammenstellen wollen, kann das TextSTAT-Korpus-Tool nützlich sein. Es ermöglicht den Download einer beliebigen Anzahl von WWW-Seiten einer Website bzw. einer beliebigen Anzahl von Postings in einer Newsgroup. Sie starten dieses Hilfsprogramm über den Menüeintrag 'Korpus > Neues Korpus (Web/News)'.

Wenn Sie bei 'Web' eine URL eingeben, wird diese als Ausgangspunkt genommen: die Links werden verfolgt, und die gefundenen Seiten werden ebenfalls dem Korpus hinzugefügt. Dabei gilt, dass der Suchbereich auf den Server oder das entsprechende Subdirectory beschränkt wird. Wenn man beispielswiese <http://www.onzetaal.nl/advies/index.html> als Ausgangspunkt nimmt, dann erhält man bei der ersten Option Seiten die beginnen mit <http://www.onzetaal.nl/>, bei der zweiten Option dagegen nur Seiten die beginnen mit <http://www.onzetaal.nl/advies/>. Auch hier kann man wieder die Dateikodierung der Webseiten angeben. In der Regel wird 'Latin-1', der Default, die richtige Einstellung sein.

Bei 'News' müssen Sie zunächst einen Newsserver angeben, auf den Sie zugreifen können/dürfen. Anschließend muss der Name einer (auf diesem Server vorhandenen) Newsgroup angegeben werden sowie die Anzahl der Bericht/Postings die eingelesen werden soll (z.B. 500). Standardmäßig werden aus den Berichten die darin vorhandenen Zitate entfernt (= Zeilen, die mit '>' beginnen). News-Berichte werden immer als 'Latin-1'-kodiert behandelt.

[ TOP ]

5. WORTFORMEN

Nachdem Sie eine oder mehrere Dateien zu einem Korpus zusammengestellt haben bzw. ein vorhandenes Korpus geladen haben, können Sie im Tab-Blatt 'Wortformen' Frequenzinformationen zu den im Korpus vorhandenen Wortformen erhalten. Drücken Sie dazu aus den Button 'Korpus analysieren'.

Standardmäßig werden alle Wörter in Kleinschreibung konvertiert und anschließend geordnet nach absteigender Frequenz angezeigt. Sie können die Wortformen groß bzw. klein geschriebene Wörter aber auch als verschiedene Formen behandeln lassen. Bei alphabetischer Sortierung führt das jedoch zu dem Problem, dass Großbuchstaben vor Kleinbuchstaben sortiert werden. Rückwärts (retrograde) Sortieren eignet sich z.B. für die eine Antwort auf die Frage, welche Wörter im Korpus ein bestimmtes Suffix haben. Der anzuzeigende Frequenzbereich kann eingegrenzt werden. Dabei gilt, dass '0' keine Einschränkung bedeutet (also: wenn min.=0 und max.=0 werden alle Wortformen angezeigt). Nach dem Ändern der Anzeige-Optionen, müssen Sie die 'Liste aktualisieren'.

Doppelklicken Sie auf eine Wortform, so wird diese im Korpus gesucht, und es wird eine Konkordanz erstellt.

[ TOP ]

6. SUCHEN/KONKORDANZ

Das Tab-Blatt 'Suchen/Konkordanz' zeigt eine Worform bzw. ein Suchmuster im Kontext. Die gefundenen Textstellen können nach verschiedenen Kriterien sortiert werden, und die Größe des anzuzeigenden Kontexts kann eingestellt werden. Der Suchbegriff wird standardmäßig in Grossbuchstaben angezeigt. Diese Markierung kann deaktiviert werden.

Wenn man einen Stuchstring eingibt, wird standardmäßig davon ausgegangen, dass es sich um ein Wort handelt. Diese Einstellung ('nur ganze Wörter suchen') kann man deaktivieren. Eine neue Suche bzw. eine Änderung der Anzeige-Optionen wird durch den Button 'Suchen / Aktualisieren' aktiviert.

Beim Suchen kann man reguläre Ausdrücke verwenden (siehe unten).

Doppelklicken Sie auf eine Textzeile, so wird diese im Korpus gesucht, und es wird das Zitat (eine Textstelle mit mehr Kontext) gezeigt.

[ TOP ]

7. ZITAT

Das Tab-Blatt 'Zitat' zeigt eine Textstelle, in der der gesuchte String in einem größeren Kontext angezeigt wird. Zusätzlich wird der Name der Datei angezeigt, aus der die entsprechende Stelle stammt. In Klammern wird die Position (in Zeichen) der Textstelle in der Originaldatei angegeben.

Ein Doppelklick auf den Dateinamen öffnet die Originaldatei mit dem Programm, das mit der Dateiendung verknüpft ist. Bei Webseiten, wird eine Verbindung zum Internet hergestellt und die Originaldatei wird im Browser angezeigt.

[ TOP ]

8. SUCHEN MIT REGULÄREN AUSDRÜCKEN

Beim definieren des Suchbegriffs (in 'Suchen/Konkordanz') kann man sogenannte reguläre Ausdrücke ('regular expressions') verwenden. Diese sind zugegebenermaßen nicht sehr benutzerfreundlich, aber dafür sehr mächtig. Sie erlauben das Definieren auch sehr komplexer Suchanfragen. Die wichtigsten Sonderzeichen sind dabei:

'.'
(der Punkt) steht für ein beliebiges Zeichen
'\w'
steht für ein beliebiges alphanumerisches Zeichen
'\W'
steht für ein beliebiges nicht-alphanumerisches Zeichen (also Leerzeichen, Satzzeichen usw.
'+'
ein oder mehr Vorkommen des vorangehenden Zeichens
'*'
kein oder mehr Vorkommen des vorangehenden Zeichens
'*?', '+?'
sorgen dafür, dass '*' und '+' nicht 'gierig' sind (s. Beispiele)
'|'
steht für oder
'[]'
eckige Klammern definieren ein Set von Zeichen die alternativ gesucht werden.

Beispiele:

w\wr
findet 'wer' und 'war'
w\w+r
findet 'wer', 'war' und 'wieder'
w[au]nder
findet 'wander' und 'wunder'
(der|die)
findet 'der' oder 'die'
ge.+e
findet in dem Text 'Der Hund geht gerne spazieren' den String 'geht gerne spaziere'
ge.+?e
findet in dem Text 'Der Hund geht gerne spazieren' den String 'geht ge'
ge\w+?e
findet in dem Text 'Der Hund geht gerne spazieren' den String 'gerne'

Wie gesagt, reguläre Ausdrücke sind nicht einfach, aber dafür sehr mächtig. Die hier gezeigten Beispiele können die Möglichkeiten nur andeuten. Es geht viel mehr!! Eine Google-Suche nach 'Einführung reguläre Ausdrücke' oder 'tutorial regular expressions' listet Dutzende von brauchbaren Seiten.

[ TOP ]

9. ERGEBNISSE DRUCKEN/EXPORTIEREN/SPEICHERN

Wortformen und Konkordanzen können direkt in ein MS Word-Dokument übertragen werden. Dort können sie dann bearbeitet und auch ausgedruckt werden (TextSTAT erlaubt es nicht, Ergebnisse direkt auszudrucken). Der Eintrag 'Resultate > MS Word' im Menü 'Datei' öffnet das Textverarbeitungsprogramm mit einem leeren Dokument und überträgt Wortformen und Konkordanzen in dieses Dokument.

Zusätzlich/alternativ bietet TextSTAT die Möglichkeit, die Resultate in einem Text-File zu speichern. (Die Kodierung des Textes richtet sich dabei nach der Einstellung unter 'Optionen > Datei-Kodierung').

Schließlich können die Wortformen mit den zugehörigen Frequenzangaben zur Weiterverarbeitung auch direkt nach MS Excel exportiert werden.

[ TOP ]

10. HISTORY: GESCHICHTE DES PROGRAMMS

Erste experimentelle Version: September 2000
Version 0.8: 20.07.2001: - es können Webseiten hinzugefügt werden; - das aktuelle Korpus kann gespeichert werden
Version 0.9: 24.07.2001: - besseres Verfahren zum Entfernen von HTML-Code aus Webseiten; - es können jetzt beliebig viele Korpora gespeichert werden (statt nur einem)
Version 1.0: 26.07.2001: - erste 'öffentliche Version'; - Lesen von HTML-Seiten jetzt auch von Festplatte; - Entfernen von HTML-Codes nochmal verbessert; - Standardschrift für Interface umgestellt auf Verdana; - Menüeintrag mit Link zur Homepage eingefügt
Version 1.1: 14.08.2001: - Sortierfunktionen geändert: verwenden jetzt locale.strcoll() und sortieren nach den Regeln der jeweiligen Sprache (des Betriebssystems); - im Zitatfenster kann jetzt die jeweilige Datei mit Doppelklick geöffnet werden; - es können mehrere HTML-Files gleichzeitig hinzugefügt werden; - Korpus wird jetzt nicht mehr als Dictionary sondern als Liste verwaltet (wegen der Reihenfolge usw.). Dadurch sind allerdings gespeicherte Korpora der vorherigen Version nicht mehr verwendbar... :-(; - Einige Optionen werden bei 'Beenden' gespeichert
Version 1.2: 08.12.2001: - Korpus wird nicht mehr nach jedem Hinzufügen einer Datei neu analysiert (dauerte zu lange); - 'Korpus Tool' hinzugefügt (Web-Spider, News-Grabber -> Korpus); - 'Statistik' entfernt (weil nichtssagend...); - 'Progress Bar' hinzugefügt; - String-Modul durch String-Methoden ersetzt
Version 1.2a: 12.12.2002: Bugfixes:; - Korpora können jetzt zusammengefügt werden;; - 'Korpus analysieren' zählt nicht mehr doppelt...
Version 1.3: 11.01.2002: - das Programm arbeitet jetzt (intern) mit Unicode, dadurch können auch Texte in anderen Kodierungen werden als Latin-1 verarbeitet werden; die jeweilige File-Kodierung muss aber beim Einlesen angegeben (s. neuen Menüpunkt 'Optionen > Datei-Kodierung'). Auch das Korpus-Tool konvertiert jetzt alles nach Unicode.; - Sprache des Programms kann jetzt geändert werden (Optionen > Sprache ändern); - Neue Option im Korpus Tool: Suchbereich des Spiders kann jetzt verändert werden (Server oder Subdirectory); - Erste Version einer Doku für erstellt (= dieser Text)
Version 1.4: 20.02.2002: - Option 'Resultate speichern' hinzugefügt (Kodierung orientiert sich dabei an der Option 'Datei-Kodierung'); - Option 'Resultate > MS Word' hinzugefügt: wenn Word auf dem System vorhanden ist, wird das Programm gestartet, und der Inhalt der Tab-Blätter wird in ein leeres Dokument übernommen; - Option 'Resultate > MS Excel' hinzugefügt: wenn Excel auf dem System vorhanden ist, wird das Programm gestartet, und die Wortformen und Frequenzangaben werden in ein leeres Dokument übernommen; - In der Worformen-Frequenzliste kann der anzuzeigende Frequenzbereich jetzt eingegrenzt werden
Version 1.5: 07.10.2002: - neue M�glichkeit: einen ganzen Ordner zu einem Korpus hinzuzuf�gen; - kleinere 'Sch�nheitsreparaturen'
Version 1.51: 01.12.2002: - Fehler behoben (beim Suchen nach 'ganzen W�rtern' wurden das erste und das letzte Wort eines Textes nicht ber�cksichtigt)

[ TOP ]

11. KONTAKT

Bei Fragen zu (oder Problemen mit) TextSTAT können Sie Kontakt mit dem Autor aufnehmen:

Matthias Hüning, <mhuening@zedat.fu-berlin>

Download und Informationen zum Programm: TextSTAT-Homepage

Letzte Änderung dieses Texts am 20.02.2002 - MH