extracteur.extracteurSpacy
index

# -*- coding: utf-8 -*-

 
Modules
       
spacy

 
Classes
       
extracteur.extracteur.Extracteur(builtins.object)
ExtracteurSpacy

 
class ExtracteurSpacy(extracteur.extracteur.Extracteur)
    ExtracteurSpacy(config)
 
Objet permettant d'extraire des termes depuis du texte grace au POS tagging
 
Attributes
----------
nlp : spacy
    Objet permettant de faire le POS tagging
 
 
Method resolution order:
ExtracteurSpacy
extracteur.extracteur.Extracteur
builtins.object

Methods defined here:
__init__(self, config)
Constructeur de la classe ExtracteurSpacy
 
Parameters
----------
config : Config
     Objet qui contient tous les paramètres de la configuration de
     l'extraction.
extraire(self, texte)
Méthode d'extraction des termes du texte.
 
Parameters
----------
texte : str
     Texte duquel on veut extraire les termes
 
Returns
-------
list[tuple[str*]]
    liste de termes correspondant à la configuration.

Methods inherited from extracteur.extracteur.Extracteur:
finaliser(self, listeTermeTmp)
Prend une liste de termes temporaires et rend une liste des termes propres
et conformes à la configuration.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste de termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste de termes nettoyés et conformes à la configuration
nettoyerTerme(self, listeTermeTmp)
Nettoie une liste de termes temporaire.
 
On retire les mots vides, la ponctuation en début et fin des termes de
la liste listeTermeTmp. On tronque au niveau des parenthèses. On retire
les termes qui n'ont pas de sens comme ceux avec un point au milieu
ou ceux composés d'une lettre ou encore ceux qui ne sont que des chiffres.
 
Parameters
----------
listeTermeTmp : list[tuple[str*]]
    Liste des termes temporaires.
 
Returns
-------
list[tuple[str*]]
    Liste des termes nettoyés
retireTermePeuFrequent(self, listeTerme)
Cette méthode renvoie la liste des termes donnée en paramètre, privée
des termes dont la fréquence dans cette liste est inférieure au seuil
donné dans le fichier de config.
 
Returns
-------
List[tuple[str*]]
    Liste des termes dont la fréquence est supérieure ou égale au seuil
    renseigné dans le fichier de configuration.
segmenter(self, texte)
Sépare le texte en liste de mots.
 
Parameters
----------
texte : str
    Le texte qu'on souhaite segmenter.
 
Returns
-------
list[str]
    Liste des mots du texte
stemToTerme(self, listeStem)
Méthode qui renvoie la liste des termes correspondants à la liste des
stems donnée en paramètre. Le terme qui correspond au stem est celui qui
a le plus fréquement donné ce stem.
 
Parameters
----------
listeStem : List[tuple[str*]]
     liste de stems que l'on souhaite trnasformer en termes plus compréhensibles
 
Returns
-------
List[tuple[str*]]
    Liste de termes correspondants à la liste de stems donnée en paramètre.
 
Raises
------
KeyError
    Si un stem de la liste n'a aucune correspondance avec un terme
RuntimeError
    Si la configuration ne permet pas le stemming cette méthode ne peut
    être appelée'
termeBonneLongueur(self, listeTerme)
Retire les termes de la liste qui ne sont pas comformes à la taille
prévue par la configuration
 
Parameters
----------
listeTerme : list[tuple[str*]]
    Liste de termes de n'importe quelles tailles
 
Returns
-------
list[tuple[str*]]
    Liste de termes de la taille prévue par la configuration
termeToStem(self, listeTermes)
Méthode qui renvoie la liste des stems correspondants à la liste des
termes donnée en paramètre. Met à jour le dictionnaire dictStemTerme.
Pour ensuite pouvoir faire appel à la méthode stemToTerme.
 
Parameters
----------
listeTermes : List[tuple[str*]]
     liste de termes extraits du texte
 
Returns
-------
List[tuple[str*]]
    Liste de stems correspondants à la liste de termes donnés en paramètre.
 
Raises
------
RuntimeError
    Si la configuration ne permet pas le stemming, cette méthode ne peut
    être appelée

Data descriptors inherited from extracteur.extracteur.Extracteur:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)