extracteur.extracteur
index

# -*- coding: utf-8 -*-

 
Modules
       
string

 
Classes
       
builtins.object
Extracteur

 
class Extracteur(builtins.object)
    Extracteur(config)
 
Objet permettant d'extraire des termes depuis un texte
 
Attributes
----------
config : Config
    Objet qui contient tous les paramètres de la configuration de l'extraction.
 
dictStemTerme : dict[tuple[str*],dict[tuple[str*],int]]
    Lorsque stem est à True dans la config ce dictionnaire permet de
    retrouver la forme de surface la plus fréquente pour un stem.
 
stemmer : SnowballStemmer
    Objet permettant de faire du stemming
 
motsVides : set[str]
    Ensemble des mots vides
 
  Methods defined here:
__init__(self, config)
Constructeur de la classe Extracteur
 
Parameters
----------
config : Config
     Objet qui contient tous les paramètres de la configuration de
     l'extraction.
extraire(self, texte)
Méthode d'extraction des termes du texte.
 
Parameters
----------
texte : str
     Texte duquel on veut extraire les termes
 
Raises
------
NotImplementedError
    Lève toujours cette erreur car cette classe est abstraite
finaliser(self, listeTermeTmp)
Prend une liste de termes temporaires et rend une liste des termes propres
et conformes à la configuration.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste de termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste de termes nettoyés et conformes à la configuration
nettoyerTerme(self, listeTermeTmp)
Nettoie une liste de termes temporaire.
 
On retire les mots vides, la ponctuation en début et fin des termes de
la liste listeTermeTmp. On tronque au niveau des parenthèses. On retire
les termes qui n'ont pas de sens comme ceux avec un point au milieu
ou ceux composés d'une lettre ou encore ceux qui ne sont que des chiffres.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste des termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste des termes nettoyés
retireTermePeuFrequent(self, listeTerme)
Cette méthode renvoie la liste des termes donnée en paramètre, privée
des termes dont la fréquence dans cette liste est inférieure au seuil
donné dans le fichier de config.
 
Returns
-------
List[tuple[str*]]
    Liste des termes dont la fréquence est supérieure ou égale au seuil
    renseigné dans le fichier de configuration.
segmenter(self, texte)
Sépare le texte en liste de mots.
 
Parameters
----------
texte : str
    Le texte qu'on souhaite segmenter.
 
Returns
-------
list[str]
    Liste des mots du texte
stemToTerme(self, listeStem)
Méthode qui renvoie la liste des termes correspondants à la liste des
stems donnée en paramètre. Le terme qui correspond au stem est celui qui
a le plus fréquement donné ce stem.
 
Parameters
----------
listeStem : List[tuple[str*]]
     liste de stems que l'on souhaite trnasformer en termes plus compréhensibles
 
Returns
-------
List[tuple[str*]]
    Liste de termes correspondants à la liste de stems donnée en paramètre.
 
Raises
------
KeyError
    Si un stem de la liste n'a aucune correspondance avec un terme
RuntimeError
    Si la configuration ne permet pas le stemming cette méthode ne peut
    être appelée'
termeBonneLongueur(self, listeTerme)
Retire les termes de la liste qui ne sont pas comformes à la taille
prévue par la configuration
 
Parameters
----------
listeTerme : list[tuple[str*]]
    Liste de termes de n'importe quelles tailles
 
Returns
-------
list[tuple[str*]]
    Liste de termes de la taille prévue par la configuration
termeToStem(self, listeTermes)
Méthode qui renvoie la liste des stems correspondants à la liste des
termes donnée en paramètre. Met à jour le dictionnaire dictStemTerme.
Pour ensuite pouvoir faire appel à la méthode stemToTerme.
 
Parameters
----------
listeTermes : List[tuple[str*]]
     liste de termes extraits du texte
 
Returns
-------
List[tuple[str*]]
    Liste de stems correspondants à la liste de termes donnés en paramètre.
 
Raises
------
RuntimeError
    Si la configuration ne permet pas le stemming, cette méthode ne peut
    être appelée

Data descriptors defined here:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)

 
Data
        PATH_MOTSVIDES = 'ressources/stopwords.fr'