indexeur.indexeur
index

# -*- coding: utf-8 -*-

 
Modules
       
math
pickle

 
Classes
       
builtins.object
Indexeur

 
class Indexeur(builtins.object)
    Indexeur(corpusTraite)
 
Objet permettant l'indexation des termes d'un corpus et des fonctionnalités
d'accés aux valeurs de l'index et de calcul (comme l'idf) d'un terme dans le corpus.
 
Attributes
----------
corpus : Corpus
    Corpus contenant les documents dont on a déjà extrait les termes
 
index : dict[int,dict[tuple[str*],int]
    L'index des documents; la clé est l'id du document, la valeur est un dictionnaire
    contenant les termes du document en clé et leur fréquence en valeur.
 
indexInv : dict[tuple[str*],dict[int,int]]
    Index inverse, la clé est un terme, la valeur est un dictionnaire contenant
    l'id des documents contenant le terme et en valeur la fréquence d'apparition
    du terme dans le document.
 
  Methods defined here:
__init__(self, corpusTraite)
Constructeur d'Indexation
 
Construit un index du corpus passé en argument, corpus sur lequel on a
déjà appelé la méthode extraction.
 
Parameters
----------
corpusTraite : Corpus
     Corpus sur lequel on a déjà appelé la méthode extraction et que
     l'on veut indexer.
calculIndex(self)
Calcule et initialise les attributs index et indexInv
 
Appelée lors de la construction de l'objet
getCorpus(self)
Getter du corpus sur lequel on calcule l'index
 
Returns
-------
Corpus
    corpus sur lequel on calcule l'index
getIDFOkapiTerme(self, terme)
Calcule l'idf(inverse document frequency) pour okapi du terme dans l'index
 
formule de l'idf log((0.5+N-n)/(0.5+n)), où N est le nombre de document
du corpus et n est le nombre de documents dans lesquels apparait le terme
passé en argument.
 
Parameters
----------
terme : tuple[str*]
 
Returns
-------
int
    L'idf du terme pour okapi
getIDFTerme(self, terme)
Calcule l'idf(inverse document frequency) du terme dans l'index
 
fomrmule de l'idf log((1+N)/(1+n)), où N est le nombre de document
du corpus et n est le nombre de documents dans lesquels apparaissent
le terme passé en argument.
 
Parameters
----------
terme : tuple[str*]
    Le terme dont on veut l'idf.
 
Returns
-------
int
    L'idf du terme
getIndex(self)
Getter d'index
 
Returns
-------
dict[int,dict[tuple[str*],int]
    index
getIndexInv(self)
Getter d'index inverse
 
Returns
-------
dict[tuple[str*],dict[int,int]]
    index inverse
getNbDocTerme(self, terme)
Renvoie le nombre de documents contenants le terme passé en paramètre.
 
Parameters
----------
terme : tuple[str*]
    Un terme
 
Returns
-------
int
    Nombre de documents contenants le terme
sauvegarder(self, path)
Sauvegarde l'objet dans un fichier pickle à l'emplacement path.
 
Parameters
----------
path : str
    Emplacement de sauvegarde

Class methods defined here:
charger(path) from builtins.type
Charge un objet Indexation depuis un fichier pickle à l'emplacement path.
 
Parameters
----------
path : str
    Emplacement de la sauvegarde
 
Returns
-------
Indexation
    L'objet Indexation chargé depuis le fichier à l'emplacement path.

Data descriptors defined here:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)