TextSTAT TextSTAT - Simpel Tekst Analyse Tool / Concordantie-software

TextSTAT 3 - Simpel Tekst Analyse Tool

Concordantie-software voor Windows, GNU/Linux en MacOS

Screenshot TextSTAT 3
Screenshot: Concordanties in TextSTAT 3

TextSTAT is een eenvoudig programma voor de analyse van teksten. Het programma leest tekst-files (in diverse coderingen) en HTML-pagina's (ook direct uit het internet). Het programma produceert woordfrequentie-lijsten en concordanties van deze bestanden. TextSTAT heeft een web crawler waarmee u een willekeurig aantal pagina's van een bepaalde website kunt toevoegen aan een TextSTAT-corpus.
TextSTAT leest ook PDF-bestanden, MS Word-bestanden en LibreOffice Writer-bestanden. U kunt deze bestanden zonder converteren direct toevoegan aan een corpus.
Om binnen de teksten te zoeken kunt u reguliere expressies gebruiken. Dat levert veelvuldige en zeer machtige zoekmogelijkheden op. TextSTAT is (omdat het intern met unicode werkt) voorbereid op de verwerking van teksten in diverse talen en met diverse coderingen. Het user interface kan worden omgeschakeld in verschillende talen.
De gegenereerde frequentie- en concordantie-lijsten kunnen voor het verdere verwerken of de visualisatie van de data als CSV-bestand worden geëxporteerd.



Logo TextSTAT

TextSTAT 3 (juni 2024) nu downloaden:

Documentatie:

Er is een engelstalige korte handleiding voor de installatie en de gebruikersoppervlakte van TextSTAT.

Disclaimer:

TextSTAT is vrije software (OpenSource). Het programma mag vrij van kosten worden gebruikt, verveelvuldigd en doorgegeven - zolang het niet wordt gewijzigd. Commerciële distributie van het progamma alleen met toestemming van de auteur. De auteur aanvaard geen aansprakelijkheid voor eventuele fouten in het programma en schade die daardoor zou kunnen ontstaan. De gedistribueerde versies bevatten een licentie-bestand.

Bug gevonden, of ander feedback?

Feedback over TextSTAT is altijd van harte welkom!


Literatuur en (vergelijkende) besprekingen:

  • Bennett, Gena R. (2010), Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. pp. 144. ISBN 978-0-472-03385-0. (Link)
  • Aldo Benini (2010), Text Analysis under Time Pressure Tools for humanitarian and development workers. Washington, DC. (Link)
  • Krajka, Jarosław (2007), Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections. CORELL: Computer Resources for Language Learning 1, 36-55. (Link)
  • Daniel Wiechmann & Stefan Fuhs (2006), in: Corpus Linguistics and Linguistic Theory 2-1, 107-127. (Link)
  • Luciana Diniz (2005), in: Language Learning & Technology Vol. 9, No. 3, pp. 22-27. (Link)


Versiegeschiedenis

TextSTAT 3.0.0

Er is veel veranderd in de nieuwe hoofdversie van TextSTAT.

  • Na jarenlange stilstand nu een grote update en bugfix-release dankzij de samenwerking met Max Kindler-Mathot.
  • Python 2 wordt niet meer ondersteund.
  • GUI is gemoderniseerd (door sv-ttk theme).
  • Update van de databasequery's zodat regular expressions effectiever kunnen worden gebruikt (door sqlean).
  • Update van de diverse conversiefuncties, gebruik van betere pakketten (zoals html-text, pypdf, docx).
  • Ingebouwde web crawler is gerepareerd en gemoderniseerd (door requests, beautifulsoup en html-text).
  • Er bestaan nu kant-en-klare distributies voor MacOS, Windows en Linux (Debian).
  • Diverse kleinere en grotere bugfixes en andere correcties.
  • Het onderliggende databaseformaat is gewijzigd (TextSTAT gebruikt nu een SQLite-database). Dit zou een positief effect moeten hebben, vooral voor grotere corpora. Bestaande tekstcorpora die met een TextSTAT 2-versie zijn gemaakt, kunnen hierdoor niet meer direct worden geopend. Ze kunnen echter eenvoudig in een nieuw corpus worden geïmporteerd. De nieuwe standaardextensie voor corpusnamen is .crp3. Hierdoor kunt u de verschillende versies goed onderscheiden.
  • Bestanden in het corpus kunnen nu achteraf worden bewerkt, wat vooral handig is bij het laden van bestanden van internet (bijvoorbeeld om reclame en navigatie-elementen te verwijderen). Klik gewoon op de bestandsnaam in het corpus-tabblad.
  • PDF-bestanden kunnen aan een corpus worden toegevoegd.

TextSTAT 2.9 (verouderd)

De versie 2.9 van het programma bevat geen essentiële nieuwe mogelijkheden, het is vooral een versie waarin een heleboel fouten en foutjes zijn gecorriceerd (vooral voor Linux-gebruikers). Het grafische programma-interface kent nu de volgende talen: Engels, Duits, Nederlands, Portugees, Spaans, Katalaans, Galcicisch, Frans, Italiaans, Pools, Tsjechisch en Fins (Suomi).

Download (binaire versie voor Windows XP/Win7):
TextSTAT 2.9c voor Windows (ca. 8 MB, van 20-02-2014)

Deze versie bevat alles, wat u nodig heeft om TextSTAT onder Windwos te draaien. U moet het installatiebestand 'uitpakken' naar een willekeurige map. Ga vervolgens met de verkenner naar deze map en start het programma door een dubbele click op 'TextSTAT.exe'. Als u een TextSTAT-icon op uw desktop wilt, dan moet u daar zelf voor zorgen.
Deïnstallatie: Omdat TextSTAT uw registry en uw systeem met rust laat, kunt u het programma gemakkelijk deïnstalleren, door gewoon de complete programma-directory te wissen. Dat is alles.

Download (Python Sourcecode):
TextSTAT 2.9c Sourcecode (ZIP-bestand, ca. 150 KB, van 20-02-2014)

TextSTAT is geschreven in Python en functioneert daarom onder Windows en Linux (getest) en ook op MAC-systemen.
Om de sourcecode-versie te gebruiken, heeft u een actuele versie van Python nodig (vanaf 2.5, liefst 2.7; TextSTAT werkt NIET met Python 3.0). Onder Windows kunt u bijv. de ActivePython-distributie installeren, die alles heeft wat u nodig heeft (Windows Extensions, Tkinter). Onder Linux zijn er natuurlijk geen Windows extensies - de export van gegevens naar MS Word en Excel werkt dus niet. Verder draait TextSTAT prima onder GNU/Linux en ook op de Mac. U moet alleen een actuele Python-distributie installeren (2.5 of hoger; Tkinter moet ook geïnstalleerd zijn, wat - vooral op de Mac - niet vanzelfsprekend is). Het programma wordt gestart door TextSTAT.pyw te starten.


TextSTAT 1.5 (verouderd)

Er is ook nog een eerdere (verouderde) versie: TextSTAT 1.52 voor Windows (ZIP-bestand, ca. 2,3 MB). Het enige voordeel van deze versie is een uitgebreide documentatie. Deze documentatie kunt u ook online bekijken: Duitse versie, Engelse versie of Franse versie.


Heeft u commentaar, vragen, opmerkingen, suggesties?
Ik ben blij met elke reactie:
Matthias Hüning, <textstat@niederlandistik.fu-berlin.de>