| |
- extracteur.extracteur.Extracteur(builtins.object)
-
- ExtracteurNGrammes
class ExtracteurNGrammes(extracteur.extracteur.Extracteur) |
|
ExtracteurNGrammes(config)
Objet permettant d'extraire des termes depuis du texte.
Cet objet extrait les ngrammes d'un document. Un ngramme est extrait seulement
s'il est entouré de mots vides ou de ponctuations. On fait l'hypothèse que si
un mot est directement à coté d'un autre mot, alors ces mots auraient du sens
ensemble. |
|
- Method resolution order:
- ExtracteurNGrammes
- extracteur.extracteur.Extracteur
- builtins.object
Methods defined here:
- __init__(self, config)
- Constructeur de la classe ExtracteurNGrammes
Parameters
----------
config : Config
Objet qui contient tous les paramètres de la configuration de
l'extraction.
- extraire(self, texte)
- Méthode d'extraction des termes du texte.
Parameters
----------
texte : str
Texte duquel on veut extraire les termes
Returns
-------
list[tuple[str*]]
liste de termes correspondants à la configuration.
- nGrammes(self, listeMots, n)
- On récupére les ngrammes à partir d'une liste de mot.
Un ngramme est valide s'il est entouré de mots vides ou de ponctuation.
Parameters
----------
listeMots : list[str]
Return
------
list[tuple[str*]]
liste de ngrammes
Methods inherited from extracteur.extracteur.Extracteur:
- finaliser(self, listeTermeTmp)
- Prend une liste de termes temporaires et rend une liste des termes propres
et conformes à la configuration.
Parameters
----------
listeTermeTmp : list[tuple[str*]]
Liste de termes temporaires.
Returns
-------
list[tuple[str*]]
Liste de termes nettoyés et conformes à la configuration
- nettoyerTerme(self, listeTermeTmp)
- Nettoie une liste de termes temporaire.
On retire les mots vides, la ponctuation en début et fin des termes de
la liste listeTermeTmp. On tronque au niveau des parenthèses. On retire
les termes qui n'ont pas de sens comme ceux avec un point au milieu
ou ceux composés d'une lettre ou encore ceux qui ne sont que des chiffres.
Parameters
----------
listeTermeTmp : list[tuple[str*]]
Liste des termes temporaires.
Returns
-------
list[tuple[str*]]
Liste des termes nettoyés
- retireTermePeuFrequent(self, listeTerme)
- Cette méthode renvoie la liste des termes donnée en paramètre, privée
des termes dont la fréquence dans cette liste est inférieure au seuil
donné dans le fichier de config.
Returns
-------
List[tuple[str*]]
Liste des termes dont la fréquence est supérieure ou égale au seuil
renseigné dans le fichier de configuration.
- segmenter(self, texte)
- Sépare le texte en liste de mots.
Parameters
----------
texte : str
Le texte qu'on souhaite segmenter.
Returns
-------
list[str]
Liste des mots du texte
- stemToTerme(self, listeStem)
- Méthode qui renvoie la liste des termes correspondants à la liste des
stems donnée en paramètre. Le terme qui correspond au stem est celui qui
a le plus fréquement donné ce stem.
Parameters
----------
listeStem : List[tuple[str*]]
liste de stems que l'on souhaite trnasformer en termes plus compréhensibles
Returns
-------
List[tuple[str*]]
Liste de termes correspondants à la liste de stems donnée en paramètre.
Raises
------
KeyError
Si un stem de la liste n'a aucune correspondance avec un terme
RuntimeError
Si la configuration ne permet pas le stemming cette méthode ne peut
être appelée'
- termeBonneLongueur(self, listeTerme)
- Retire les termes de la liste qui ne sont pas comformes à la taille
prévue par la configuration
Parameters
----------
listeTerme : list[tuple[str*]]
Liste de termes de n'importe quelles tailles
Returns
-------
list[tuple[str*]]
Liste de termes de la taille prévue par la configuration
- termeToStem(self, listeTermes)
- Méthode qui renvoie la liste des stems correspondants à la liste des
termes donnée en paramètre. Met à jour le dictionnaire dictStemTerme.
Pour ensuite pouvoir faire appel à la méthode stemToTerme.
Parameters
----------
listeTermes : List[tuple[str*]]
liste de termes extraits du texte
Returns
-------
List[tuple[str*]]
Liste de stems correspondants à la liste de termes donnés en paramètre.
Raises
------
RuntimeError
Si la configuration ne permet pas le stemming, cette méthode ne peut
être appelée
Data descriptors inherited from extracteur.extracteur.Extracteur:
- __dict__
- dictionary for instance variables (if defined)
- __weakref__
- list of weak references to the object (if defined)
| |