| |
- classeur.classeur.Classeur(builtins.object)
-
- ClasseurTFIDF
class ClasseurTFIDF(classeur.classeur.Classeur) |
|
ClasseurTFIDF(config, indexCorpusRef)
Cette classe attribue comme score aux termes, leur tfidf d'après un
corpus de référence et selon l'agrégation choisie dans la config.
Il y a deux formules pour le tfidf, on peut choisir dans le fichier de config.
- Standard -> tf*idf
- Log -> (1+log(tf))*idf : accorde moins d'importance aux tf que dans
la formule standard |
|
- Method resolution order:
- ClasseurTFIDF
- classeur.classeur.Classeur
- builtins.object
Methods defined here:
- __init__(self, config, indexCorpusRef)
- Constructeur de la classe ClasseurTFIDF
Parameters
----------
config : Config
Objet qui contient tous les paramètres de la configuration de
l'extraction.
indexCorpusRef : Indexeur
L'index du corpus de référence qui permet de calculer l'idf.
- noter(self, indexCorpus)
- Méthode qui attribue un score aux termes.
Le score correspond au tfidf standard ou log selon le choix fait dans
le fichier de config, normalisé par document puis pris selon l'agrégation
choisie dans la config.
Methods inherited from classeur.classeur.Classeur:
- agregerScore(self, nbdoc, indexInvScore)
- Renvoie un dictionnaire de scores pour les termes du dictionnaire passé en argument,
agréger selon la config.
Parameters
----------
nbdoc : int
nombre de document dans le corpus. Important pour la moyenne.
indexInvScore : dict[tuple[str*],dict[int,float]]
Score d'un terme dans les documents
Returns
-------
dict[tuple[str*],float]
Dictionnaire de score agrégé pour un terme
- classer(self, indexCorpus)
- Attribue un score aux termes du corpus puis les trie en fonction du
score, puis par ordre alphabétique si égalité sur le score
Parameters
----------
indexCorpus : Indexation
L'index du corpus
Returns
-------
List[tuple[tuple[str*],float]]
Liste triée par ordre décroissant des scores des termes
- normaliserScoreClassement(self, dictTermesScores)
- Normalise en place le score des termes du dictionnaire passé en paramètre.
Recentre entre 0 et 1 le score des termes.
Parameters
----------
dictTermesScores : dict[tuples[str*],float]
Dictionnaire du score pour un terme
Data descriptors inherited from classeur.classeur.Classeur:
- __dict__
- dictionary for instance variables (if defined)
- __weakref__
- list of weak references to the object (if defined)
| |