extracteur.extracteurNGrammes
index

# -*- coding: utf-8 -*-

 
Modules
       
string

 
Classes
       
extracteur.extracteur.Extracteur(builtins.object)
ExtracteurNGrammes

 
class ExtracteurNGrammes(extracteur.extracteur.Extracteur)
    ExtracteurNGrammes(config)
 
Objet permettant d'extraire des termes depuis du texte.
 
Cet objet extrait les ngrammes d'un document. Un ngramme est extrait seulement
s'il est entouré de mots vides ou de ponctuations. On fait l'hypothèse que si
un mot est directement à coté d'un autre mot, alors ces mots auraient du sens
ensemble.
 
 
Method resolution order:
ExtracteurNGrammes
extracteur.extracteur.Extracteur
builtins.object

Methods defined here:
__init__(self, config)
Constructeur de la classe ExtracteurNGrammes
 
Parameters
----------
config : Config
     Objet qui contient tous les paramètres de la configuration de
     l'extraction.
extraire(self, texte)
Méthode d'extraction des termes du texte.
 
Parameters
----------
texte : str
     Texte duquel on veut extraire les termes
 
Returns
-------
list[tuple[str*]]
    liste de termes correspondants à la configuration.
nGrammes(self, listeMots, n)
On récupére les ngrammes à partir d'une liste de mot.
Un ngramme est valide s'il est entouré de mots vides ou de ponctuation.
 
Parameters
----------
listeMots : list[str]
 
Return
------
list[tuple[str*]]
    liste de ngrammes

Methods inherited from extracteur.extracteur.Extracteur:
finaliser(self, listeTermeTmp)
Prend une liste de termes temporaires et rend une liste des termes propres
et conformes à la configuration.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste de termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste de termes nettoyés et conformes à la configuration
nettoyerTerme(self, listeTermeTmp)
Nettoie une liste de termes temporaire.
 
On retire les mots vides, la ponctuation en début et fin des termes de
la liste listeTermeTmp. On tronque au niveau des parenthèses. On retire
les termes qui n'ont pas de sens comme ceux avec un point au milieu
ou ceux composés d'une lettre ou encore ceux qui ne sont que des chiffres.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste des termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste des termes nettoyés
retireTermePeuFrequent(self, listeTerme)
Cette méthode renvoie la liste des termes donnée en paramètre, privée
des termes dont la fréquence dans cette liste est inférieure au seuil
donné dans le fichier de config.
 
Returns
-------
List[tuple[str*]]
    Liste des termes dont la fréquence est supérieure ou égale au seuil
    renseigné dans le fichier de configuration.
segmenter(self, texte)
Sépare le texte en liste de mots.
 
Parameters
----------
texte : str
    Le texte qu'on souhaite segmenter.
 
Returns
-------
list[str]
    Liste des mots du texte
stemToTerme(self, listeStem)
Méthode qui renvoie la liste des termes correspondants à la liste des
stems donnée en paramètre. Le terme qui correspond au stem est celui qui
a le plus fréquement donné ce stem.
 
Parameters
----------
listeStem : List[tuple[str*]]
     liste de stems que l'on souhaite trnasformer en termes plus compréhensibles
 
Returns
-------
List[tuple[str*]]
    Liste de termes correspondants à la liste de stems donnée en paramètre.
 
Raises
------
KeyError
    Si un stem de la liste n'a aucune correspondance avec un terme
RuntimeError
    Si la configuration ne permet pas le stemming cette méthode ne peut
    être appelée'
termeBonneLongueur(self, listeTerme)
Retire les termes de la liste qui ne sont pas comformes à la taille
prévue par la configuration
 
Parameters
----------
listeTerme : list[tuple[str*]]
    Liste de termes de n'importe quelles tailles
 
Returns
-------
list[tuple[str*]]
    Liste de termes de la taille prévue par la configuration
termeToStem(self, listeTermes)
Méthode qui renvoie la liste des stems correspondants à la liste des
termes donnée en paramètre. Met à jour le dictionnaire dictStemTerme.
Pour ensuite pouvoir faire appel à la méthode stemToTerme.
 
Parameters
----------
listeTermes : List[tuple[str*]]
     liste de termes extraits du texte
 
Returns
-------
List[tuple[str*]]
    Liste de stems correspondants à la liste de termes donnés en paramètre.
 
Raises
------
RuntimeError
    Si la configuration ne permet pas le stemming, cette méthode ne peut
    être appelée

Data descriptors inherited from extracteur.extracteur.Extracteur:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)