TextSTAT

© 2001/2002 - Matthias Hüning

Version 1.51 (01.12.2002)

SOMMAIRE

1. Introduction
2. Constitution de corpus
3. Enregistrer et ouvrir un corpus
4. Utilitaires d'aspiration
5. Fréquence des mots
6. Recherche / Occurrences
7. Citation
8. Recherche avancée par expressions régulières
9. Imprimer / exporter / enregistrer les résultats
10. Bref historique
11. Contact

1.INTRODUCTION

TextSTAT est un logiciel de repérage textuel permettant d'effectuer des recherches d'occurrences de mots selon divers paramètres. TextSTAT est facile à l'emploi , et est destiné tout particulièrement à analyser les textes recueillis sur l'internet. Les textes sont rassemblés dans des corpus qu'il est possible de mémoriser. Le logiciel analyse ces corpus, en extrait les mots qui le composent et publie des listes de fréquence de ces mots ainsi que les occurrences des éléments recherchés. Le logiciel est écrit en langage Python et est proposé ici pour une utilisation sous Windows. TextSTAT est un graticiel.

La seule limite à la longueur des textes que vous pouvez analyser à l'aide de TextSTAT, est celle que vous impose la mémoire vive (RAM) de votre ordinateur. A l'aide de TextSTAT, vous pouvez savoir combien de fois un mot est employé dans un texte, dans quels contextes il est utilisé et dans quelles collocations il revient.

TextSTAT est également disponible en allemand et en anglais et en françe. Vous pouvez changer la langue de travail en cliquant sur " Sprache ändern / Choisissez votre langue " dans le menu " Options ".

Le fonctionnement du logiciel sous Windows 98(SE) et Windows XP a été soumis à des tests. Il n'est pas exclu que TextSTAT fonctionne aussi sous d'autres versions de Windows.

[ TOP ]

2. CONSTITUTION DE CORPUS

Au lancement de TextSTAT, apparaît une fenêtre avec une barre de menu ainsi qu'une boîte de dialogue composée de fiches surmontées d'onglets. La première fiche est surmontée de l'onglet " Corpus ", et vous invite à choisir les documents que vous voulez analyser. Le corpus se compose de tous les fichiers apparaissant dans le champ de visualisation de la fiche.
Pour ce faire vous avez les deux possibilités suivantes :
- " Ajouter un fichier " (soit en cliquant sur le bouton soit en ouvrant le menu)
- " Ajouter un document HTML " (soit en cliquant sur le bouton soit en ouvrant le menu)

Dans un cas comme dans l'autre, les documents que vous ajoutez ne doivent pas être formatés. Vous ne pouvez pas, par exemple, éditer directement un fichier MS-Word, il vous faut d'abord le convertir. En règle générale, les documents sont disponibles en format ASCII (système de codage " Latin-1 ", qui constitue également le format standard des documents HTML). Cette configuration est la configuration par défaut de TextSTAT. Il vous est toutefois possible d'ouvrir des fichiers faisant appel à d'autres systèmes de codage en configurant de façon appropriée TextSTAT avant d'ouvrir le fichier désiré. Pour cela ouvrez le menu " Options " et sélectionnez " Système de codage ". TextSTAT utilise, en interne, le système de codage Unicode.

Les documents HTML peuvent être édités soit directement en ligne soit hors ligne. Pour l'édition en ligne, il faut entrer l'URL complet (http://...). Pour l'édition hors- ligne, il faut pointer le dossier dans lequel se trouve le document et entrer le nom du fichier dans lequel se trouve le document (par exemple : " c:\MesTextes\document.html "). TextSTAT se charge d'effacer les balisages HTML, à moins que vous ne désactiviez cette fonction.

[ TOP ]

3. ENREGISTRER ET OUVRIR UN CORPUS

Pour une utilisation ultérieure, il convient d'enregistrer les fichiers ouverts en les mémorisant dans un corpus. Cliquez sur le bouton " Enregistrer " ou ouvrez le menu " Corpus ". Un nouveau fichier, auquel il faudra donner un nom, sera ainsi créé. Enregistrez ce fichier dans un dossier. Vous utiliserez de préférence un dossier par corpus.

[ TOP ]

4. UTILITAIRES D'ASPIRATION

Si vous désirez regrouper dans un corpus des documents collectés sur l'internet, TextSTAT vous offre deux utilitaires performants qui vous permettent de télédécharger, par aspiration, un nombre illimité de pages d'un même site ou encore de messages d'un forum de discussion. Vous pouvez lancer ces utilitaires en ouvrant le menu " Corpus ", " Nouveau corpus (Web / Forum) ". Une nouvelle boîte de dialogue avec deux fiches surmontées des onglets " Web " et " Forum " s'affiche.

La fiche " Web " contient un champ dans lequel vous entrerez une adresse URL. qui servira de point de départ à votre collecte. Sous ce champ, l'utilitaire vous demande de fixer le nombre maximum de pages que vous voulez aspirer. Il vous faut aussi définir l'étendue de votre collecte en la limitant soit à un serveur sur lequel les documents sont accessibles soit à un sous-dossier. Ainsi, si vous avez entré l'adresse <http://www.onzetaal.nl/advies/index.html> , vous obtiendrez, en choisissant la première option, toutes les pages qui commencent par <http://www.onzetaal.nl/> et qui sont accessibles sur le même serveur. En choisissant la seconde option " Sous-dossier ", vous obtiendrez toutes les pages du sous-dossier <http://www.onzetaal.nl/advies/> ainsi que toutes celles auxquelles les documents de ce sous-dossier renvoient par lien hypertexte. Enfin, il vous faut choisir le système de codage des documents que vous allez aspirer. La configuration par défaut est " Latin-1 ".

La seconde fiche, la fiche " Forum " vous demande d'entrer, dans le premier champ, l'adresse du serveur auquel vous voulez avoir accès, puis, dans le deuxième champ, le nom du forum que vous voulez analyser et enfin le nombre maximum de messages (par exemple 500) dont vous voulez que votre corpus se compose. Les citations (lignes commençant par " > ") sont automatiquement effacées. Le système de codage des messages est toujours " Latin-1 ".

[ TOP ]

5. FRÉQUENCE DES MOTS

Une fois le corpus constitué ou le fichier contenant les documents du corpus ouvert, vous pouvez consulter les fréquences des mots contenus dans le corpus en ouvrant la fiche de dialogue " Fréquence des mots " et en cliquant sur le bouton " Analyse du corpus ". TextSTAT convertit, par défaut, toutes les majuscules en minuscules. Les mots sont classés par ordre décroissant de fréquence. Il vous est cependant possible de configurer TextSTAT de telle sorte que les mots commençant par des majuscules soient traités différemment des mots commençant par des minuscules. Lors du classement alphabétique, les mots commençant par une majuscule seront placés avant les mots commençant par une minuscule.

Une autre forme de classement des mots du corpus est le classement alphabétique inverse (par la fin du mot), par exemple pour extraire des fréquences de suffixe. Le domaine de fréquence peut être limité. La valeur " 0 " signifie, qu'il n'y a pas de limitation. Ainsi, si la valeur 0 est attribuée au maximum et au minimum, toutes les formes seront affichées. Après modification des options d'affichage, il faut actualiser la configuration du logiciel en cliquant sur le bouton " Actualiser les listes ".

Par un double-clique sur un mot, vous pouvez afficher les occurrences existant dans le corpus.

[ TOP ]

6. RECHERCHE / OCCURRENCES

Pour fouiller un corpus à la recherche d'un mot ou d'une chaîne de caractères, il convient d'activer la fiche surmontée de l'onglet " Recherche / occurrences " et d'entrer dans le champ " Requête " le mot ou la chaîne de caractères recherchés. Celui-ci ou celle-ci seront alors affichés dans leur contexte. Les occurrences peuvent être classées selon des critères différents, la longueur du contexte - tant à droite qu'à gauche de l'élément recherché - peut être définie librement. La réponse est affichée, par défaut, en majuscules. Il est toutefois possible de désactiver cette configuration.

Si la requête est constituée d'une chaîne de caractères, TextSTAT analyse cette chaîne de caractères comme formant un mot. Cette configuration " Uniquement les mots complets " peut être désactivée. Une nouvelle recherche ou une modification des options d'affichage est activée en cliquant sur le bouton " Recherche / actualisation ".

Il est également possible d'utiliser des expressions régulières pour effectuer une recherche (voir ci-dessous).

Par un double-clique sur une ligne de texte, vous lancez automatiquement une requête qui recherche cette ligne dans l'ensemble du corpus. Le résultat affiché est une citation, c'est à dire un passage du texte dans un contexte élargi.

[ TOP ]

7. CITATION

La fiche de dialogue surmontée de l'onglet " Citation " permet d'afficher le passage du texte, dans lequel la chaîne de caractères recherchée apparaît dans un contexte élargi. Le nom du fichier dont est issu ce contexte est affiché ainsi que la position (en chiffres) de l'élément repéré dans le document d'origine.

Par un double-clique sur le nom du fichier, celui-ci s'ouvre en lançant le logiciel auquel le suffixe du nom du fichier renvoie. Pour les documents HTML, une connexion avec l'internet est réalisée, le document d'origine est affiché dans le fureteur.

[ TOP ]

8. RECHERCHE AVANCÉE PAR EXPRESSIONS RÉGULIÈRES

Pour la définition de la requête (Menu " Recherche / Occurrences), il vous est possible d'utiliser les expressions régulières qui constituent un puissant outil pour la manipulation de textes et de données, mais qui, hélas, ne sont guère aisées de maniement. Les principales expressions régulières sont :

'.'
(point) remplace n'importe quel caractère.
'\w'
(backslash w) remplace tout caractère alphanumérique.
'\W'
(backslash W) remplace tout caractère qui n'est pas un caractère alphanumérique (espaces, signes de ponctuation etc.).
'+'
(plus) signifie au moins une fois.
'*'
(étoile) signifie 0 ou plus.
'*?', '+?'
(point d'interrogation) est un quantificateur minimum, employé avec " + " ou " * ", il évite une inflation des réponses (voir exemples).
'|'
(barre) permet de définir une alternative ; elle représente l'opérateur boléen " ou ".
'[]'
(crochets) définit une série de caractères alternative.

Exemples :

b\wsse
repère " basse " ou " bosse "
b\w+sse
repère " basse ", " bosse " ou " barcasse "
b[ai]lle
repère " balle " et " bille "
(un|une)
repère " un " ou " une "
no.+e
repère dans le texte " Renault a présenté ses dernières nouveautés au Salon d'automne de l'automobile. " la chaîne suivante : " nouveautés au Salon d'automne de l'automobile "
no.+?e
repère dans le texte " Renault a présenté ses dernières nouveautés au Salon d'automne de l'automobile. " la chaîne suivante : " nouve "
d.+?s
repère dans le texte " Renault a présenté ses dernières nouveautés au Salon d'automne de l'automobile. " la chaîne suivante : " dernières nouveautés "
d\w+?s
repère dans le texte " Renault a présenté ses dernières nouveautés au Salon d'automne de l'automobile. " la chaîne suivante : " dernières "

Le recours aux expressions régulières est une technique relativement complexe, mais très performante. Les exemples ci-dessus n'ont d'autre prétention que de donner un aperçu des possibilités qu'offrent ces expressions régulières. Il y en a bien d'autres, comme vous pouvez vous en convaincre en recherchant dans Google " expressions régulières " ou " tutorial regular expressions ".

[ TOP ]

9. IMPRIMER / EXPORTER / ENREGISTRER LES RÉSULTATS

Les fréquences de mots ainsi que les occurrences peuvent être directement exportées dans un document Word et être ainsi éditées et imprimées (TextSTAT n'a pas de fonction d'impression). Ouvrez le menu " Fichier " et cliquez sur " Résultats > MS Word ". Vous lancez ainsi Word qui éditera, dans un nouveau document, les résultats de la recherche. Vous avez également la possibilité d'enregistrer les résultats dans un fichier.
Pour tout traitement ultériur les fréquences des mots contenus dans le corpus peuvent être envoyées à MS Excel.

[ TOP ]

10. BREF HISTORIQUE

Première version expérimentale : Septembre 2000
Version 0.8 : 20 juillet 2001: - possibilité d'insertion de pages du Web; - possibilité d'enregistrement du corpus actuel
Version 0.9 : 24 juillet 2001: - amélioration de la procédure d'effacement des balises HTML; - possibilité d'enregistrement d'un nombre illimité de corpus
Version 1.0 : 26 juillet 2001: - première version " publique "; - lecture de pages HTML enregistrées sur le disque dur; - nouvelle amélioration de la procédure d'effacement des balises HTML; - Verdana, police de caractères par défaut des interfaces; - commande de renvoi à un site internet dans la barre de menu
Version 1.1 : 14 août 2001: - modification de la fonction de classement : utilisation de locale.scroll() et classement selon les critères du système d'exploitation dans les différentes langues; - ouverture du fichier par double-clic dans la fenêtre " Citation "; - possibilité d'insertion simultanée de plusieurs documents HTML; - gestion du corpus sous la forme de liste et non plus de dictionnaire en raison de l'ordre. Les corpus enregistrés ne sont, toutefois, plus utilisables..... :-(; - certaines options sont mémorisées à la fermeture du logiciel
Version 1.2 : 8 décembre 2001: - plus besoin d'analyser de nouveau le corpus entier lors de l'insertion d'un nouveau document; - Implémentation des utilitaires de constitution de corpus (Web-Spider, NewsGrabber -> Corpus); - Menu " Statistiques " éliminé (qui ne rimait pas à grand'chose); - Implémentation de la barre de progression; - Remplacement du module de chaîne de caractères par une méthode
Version 1.2a : 12 décembre 2001: Bogues; - possibilité d'amalgamer les corpus; - fonction " Analyse de corpus " ne compte plus double
Version 1.3 : 11 janvier 2002: - TextSTAT utilise maintenant le système de codage Unicode et peut ainsi traiter des textes autres que ceux codés en Latin-1. Il convient toutefois d'entrer le nom du système de codage de chacun des fichiers. L'utilitaire de constitution de corpus convertit également tous les documents en Unicode.; - possibilité de choix de la langue des interfaces (" Options > Choisissez votre langue de dialogue"); - nouvelle option pour l'utilitaire de constitution de corpus : le domaine de recherche de l'aspirateur peut être modifié (serveur ou sous-dossier); - première version de la documentation
Version 1.4 : 20 février 2002: - implémentation de l'option " Enregistrer les résultats " (système de codage suivant l'option " Fichier-système de codage "; - implémentation de l'option " Résultats > MS Word " : si MS Word est installé sur l'ordinateur, le logiciel est lancé et le contenu des champs apparaissant dans les fiches de dialogue est exporté dans un nouveau document; - implémentation de l'option " Fréquence > MS Excel "; - possibilité de limitation des fréquences à afficher dans la liste de fréquence des mots
Version 1.5 : 07 octobre 2002: - implémentation de l'option " Ouvrir dossier "

[ TOP ]

11. CONTACT

Si vous avez des questions (ou des problèmes) concernant TextSTAT, n'hésitez pas à contacter l'auteur du logiciel:

Matthias Hüning, <mhuening@zedat.fu-berlin>

Informations et télédéchargement sur le site de TextSTAT.

[ 20.02.2002 - MH ]