1. Einleitung
2. Erstellung eigener Korpora
3. Korpus speichern / öffnen
4. Internet Korpus-Tool
5. Wortformen
6. Suchen/Konkordanz
7. Zitat
8. Suchen mit regulären Ausdrücken
9. Ergebnisse drucken/exportieren/speichern
10. History: Geschichte des Programms
11. Kontakt
TextSTAT ist ein Konkordanzprogramm, das auf einfache Handhabung und Internetfunktionalität hin ausgelegt ist. Texte lassen sich zu Korpora zusammenstellen (die auch als solche gespeichert werden können). Das Programm analysiert diese Textkorpora, zeigt Wortfrequenz-Listen und Konkordanzen zu Suchbegriffen. Das Programm ist in Python geschrieben und wird hier als Windows-Programm zur Verfügung gestellt. TextSTAT ist Freeware.
Mit TextSTAT können Sie eine beliebige Menge (na ja, nicht ganz: die Menge wird von Ihrem RAM-Speicher begrenzt...) Text durchsuchen. Sie erfahren wie oft ein bestimmtes Wort vorkommt oder in welchen Kontexten es verwendet wird. Auch Wortkombinationen können untersucht werden.
TextSTAT liegt momentan in drei Sprachversionen vor: Deutsch, Englisch und Französisch. Sie können die Sprache über den Menüeintrag 'Sprache ändern' (unter 'Optionen') einstellen. Um die neue Spracheinstellung zu aktivieren, müssen Sie das Programm beenden und neu starten.
Das Programm ist unter Windows 98 (SE) und Windows XP getestet worden. Es sollte aber auch mit anderen Win32-Versionen funktionieren...
Wenn Sie TextSTAT öffnen, sehen sie einen Fenster mit einer Menüzeile und mehrerern 'Tab-Blättern'. Im Vordergund ist das Tab-Blatt 'Korpus'. Sie können nun Dateien hinzufügen und auf diese Weise zu einem Korpus zusammenstellen. Hierzu gibt es die folgenden Möglichkeiten:
- 'Datei hinzufügen' (über Menüeintrag oder Button)
- 'HTML-Seite(n) hinzufügen' (über Menüeintrag oder Button)
Für beide Möglichkeiten gilt, dass die Datei, die hinzugefügt werden soll, 'platten' Text (also ohne Formatierungen) enhalten muss. Man kann also z.B. keine MS Word-Files einlesen, sondern muss einen solchen Text erst konvertieren. In der Regel wird eine solche Datei dann als ASCII-Text vorliegen (kodiert als 'Latin-1'; das ist auch die Standardkodierung für HTML-Seiten). Dies ist die Standardeinstellung von TextSTAT. Es können aber auch andere Kodierungen verwendet werden, die vorm Einlesen der Datei eingestellt werden müssen (über den Menüeintrag: 'Optionen > Datei-Kodierung'). TextSTAT verarbeitet die Texte intern im Unicode-Format.
HTML-Files können direkt aus dem Internet oder von der eigenen Festplatte eingelesen werden. Bei der ersten Möglichkeit muss die komplette WWW-Adresse (= URL) eingegeben werden, also inklusive 'http://', und es muss natürlich eine Internetverbindung vorhanden sein... Für die zweite Möglichkeit geben Sie einfach den Dateinamen inkl. Pfad ein (also z.B. 'c:\directory\datei.htm'). Standardmäßig werden die HTML-Codes aus den Dateien entfernt. Dies kann aber deaktiviert werden.
Sie können die geöffneten Dateien zur späteren Wiederverwendung als Korpus abspeichern (über den entsprechenden Button bzw. den Menüeintrag). Es wird eine Datei angelegt, der Sie einen beliebigen Namen geben können. Es empfiehlt sich, die Korpora in einem separaten Ordner abzulegen.
Wenn Sie Dateien aus dem Internet zu einem Korpus zusammenstellen wollen, kann das TextSTAT-Korpus-Tool nützlich sein. Es ermöglicht den Download einer beliebigen Anzahl von WWW-Seiten einer Website bzw. einer beliebigen Anzahl von Postings in einer Newsgroup. Sie starten dieses Hilfsprogramm über den Menüeintrag 'Korpus > Neues Korpus (Web/News)'.
Wenn Sie bei 'Web' eine URL eingeben, wird diese als Ausgangspunkt genommen: die Links werden verfolgt, und die gefundenen Seiten werden ebenfalls dem Korpus hinzugefügt. Dabei gilt, dass der Suchbereich auf den Server oder das entsprechende Subdirectory beschränkt wird. Wenn man beispielswiese <http://www.onzetaal.nl/advies/index.html> als Ausgangspunkt nimmt, dann erhält man bei der ersten Option Seiten die beginnen mit <http://www.onzetaal.nl/>, bei der zweiten Option dagegen nur Seiten die beginnen mit <http://www.onzetaal.nl/advies/>. Auch hier kann man wieder die Dateikodierung der Webseiten angeben. In der Regel wird 'Latin-1', der Default, die richtige Einstellung sein.
Bei 'News' müssen Sie zunächst einen Newsserver angeben, auf den Sie zugreifen können/dürfen. Anschließend muss der Name einer (auf diesem Server vorhandenen) Newsgroup angegeben werden sowie die Anzahl der Bericht/Postings die eingelesen werden soll (z.B. 500). Standardmäßig werden aus den Berichten die darin vorhandenen Zitate entfernt (= Zeilen, die mit '>' beginnen). News-Berichte werden immer als 'Latin-1'-kodiert behandelt.
Nachdem Sie eine oder mehrere Dateien zu einem Korpus zusammengestellt haben bzw. ein vorhandenes Korpus geladen haben, können Sie im Tab-Blatt 'Wortformen' Frequenzinformationen zu den im Korpus vorhandenen Wortformen erhalten. Drücken Sie dazu aus den Button 'Korpus analysieren'.
Standardmäßig werden alle Wörter in Kleinschreibung konvertiert und anschließend geordnet nach absteigender Frequenz angezeigt. Sie können die Wortformen groß bzw. klein geschriebene Wörter aber auch als verschiedene Formen behandeln lassen. Bei alphabetischer Sortierung führt das jedoch zu dem Problem, dass Großbuchstaben vor Kleinbuchstaben sortiert werden. Rückwärts (retrograde) Sortieren eignet sich z.B. für die eine Antwort auf die Frage, welche Wörter im Korpus ein bestimmtes Suffix haben. Der anzuzeigende Frequenzbereich kann eingegrenzt werden. Dabei gilt, dass '0' keine Einschränkung bedeutet (also: wenn min.=0 und max.=0 werden alle Wortformen angezeigt). Nach dem Ändern der Anzeige-Optionen, müssen Sie die 'Liste aktualisieren'.
Doppelklicken Sie auf eine Wortform, so wird diese im Korpus gesucht, und es wird eine Konkordanz erstellt.
Das Tab-Blatt 'Suchen/Konkordanz' zeigt eine Worform bzw. ein Suchmuster im Kontext. Die gefundenen Textstellen können nach verschiedenen Kriterien sortiert werden, und die Größe des anzuzeigenden Kontexts kann eingestellt werden. Der Suchbegriff wird standardmäßig in Grossbuchstaben angezeigt. Diese Markierung kann deaktiviert werden.
Wenn man einen Stuchstring eingibt, wird standardmäßig davon ausgegangen, dass es sich um ein Wort handelt. Diese Einstellung ('nur ganze Wörter suchen') kann man deaktivieren. Eine neue Suche bzw. eine Änderung der Anzeige-Optionen wird durch den Button 'Suchen / Aktualisieren' aktiviert.
Beim Suchen kann man reguläre Ausdrücke verwenden (siehe unten).
Doppelklicken Sie auf eine Textzeile, so wird diese im Korpus gesucht, und es wird das Zitat (eine Textstelle mit mehr Kontext) gezeigt.
Das Tab-Blatt 'Zitat' zeigt eine Textstelle, in der der gesuchte String in einem größeren Kontext angezeigt wird. Zusätzlich wird der Name der Datei angezeigt, aus der die entsprechende Stelle stammt. In Klammern wird die Position (in Zeichen) der Textstelle in der Originaldatei angegeben.
Ein Doppelklick auf den Dateinamen öffnet die Originaldatei mit dem Programm, das mit der Dateiendung verknüpft ist. Bei Webseiten, wird eine Verbindung zum Internet hergestellt und die Originaldatei wird im Browser angezeigt.
Beim definieren des Suchbegriffs (in 'Suchen/Konkordanz') kann man sogenannte reguläre Ausdrücke ('regular expressions') verwenden. Diese sind zugegebenermaßen nicht sehr benutzerfreundlich, aber dafür sehr mächtig. Sie erlauben das Definieren auch sehr komplexer Suchanfragen. Die wichtigsten Sonderzeichen sind dabei:
Beispiele:
Wie gesagt, reguläre Ausdrücke sind nicht einfach, aber dafür sehr mächtig. Die hier gezeigten Beispiele können die Möglichkeiten nur andeuten. Es geht viel mehr!! Eine Google-Suche nach 'Einführung reguläre Ausdrücke' oder 'tutorial regular expressions' listet Dutzende von brauchbaren Seiten.
Wortformen und Konkordanzen können direkt in ein MS Word-Dokument übertragen werden. Dort können sie dann bearbeitet und auch ausgedruckt werden (TextSTAT erlaubt es nicht, Ergebnisse direkt auszudrucken). Der Eintrag 'Resultate > MS Word' im Menü 'Datei' öffnet das Textverarbeitungsprogramm mit einem leeren Dokument und überträgt Wortformen und Konkordanzen in dieses Dokument.
Zusätzlich/alternativ bietet TextSTAT die Möglichkeit, die Resultate in einem Text-File zu speichern. (Die Kodierung des Textes richtet sich dabei nach der Einstellung unter 'Optionen > Datei-Kodierung').
Schließlich können die Wortformen mit den zugehörigen Frequenzangaben zur Weiterverarbeitung auch direkt nach MS Excel exportiert werden.
Bei Fragen zu (oder Problemen mit) TextSTAT können Sie Kontakt mit dem Autor aufnehmen:
Matthias Hüning, <mhuening@zedat.fu-berlin>
Download und Informationen zum Programm: TextSTAT-Homepage
Letzte Änderung dieses Texts am 20.02.2002 - MH