config.config
index

# -*- coding: utf-8 -*-

 
Modules
       
copy
re

 
Classes
       
builtins.object
Config
enum.Enum(builtins.object)
FORMULES_AGREGATION
METHODES_EXTRACTION
METHODES_SCORING

 
class Config(builtins.object)
    Config(path)
 
Objet de configuration des paramètres de l'extraction et du scoring de termes
 
Attributes
----------
stem : bool
    Si True permet de remplacer les termes par leur stem.
 
methodeExtraction : METHODES_EXTRACTION
    Si POSTAG, permet d'extraire les termes avec du POS tagging ainsi avoir
    des termes plus pertinents.
    Si NGRAMMES, recupère les n-grammes de façon simple
 
longueurMin : int
    Longueur minimale d'un terme en nombre de mots
 
longueurMax : int
    Longueur maximale d'un terme en nombre de mots
 
seuilNbOccMin : int
    Les termes ne sont pris en compte que s'ils sont présents plus de
    seuilNbOccMin. Ce seuil s'applique sur les documents du corpus et non
    sur le corpus.
 
methodeScoring : METHODES_SCORING
    La façon dont laquelle on attribue un score au termes. Soit juste la
    FREQUENCE, soit avec un TFIDF_STANDARD c'est-à-dire la formule est : tf*idf
    ou bien TFIDF_LOG formule : (1+log(tf))*idf, ou encore la methode OKAPI
 
formuleAgregation : FORMULES_AGREGATION
    Quand il y a plusieurs documents dans le corpus on doit agréger le score
    des termes. Soit on prend le score max du terme parmi tous les documents,
    soit on prend la sommme ou encore la moyenne.
 
cValue : bool
    Si TRUE le score d'un terme sera la moyenne géometrique de la
    methodeScoring  et la C-Value, qui a pour but de pénaliser les termes
    qui sont imbriqués dans d'autres.
 
corpusPath : str
    Chemin du fichier corpus
 
outputPath  : str
    Chemin du fichier de sortie dans lequel on écrira le résultat
 
  Methods defined here:
__init__(self, path)
Constructeur de la classe Config
 
Intialise l'objet avec les valeurs du fichier de chemin path
 
Parameters
----------
path : str
    Chemin du fichier de config
copy(self)
Renvoie une copie de cet objet
 
Returns
-------
Config
    Une copie de l'objet
getCValue(self)
Getter cValue
 
Returns
-------
bool
    cValue
getCorpusPath(self)
Getter corpusPath
 
Returns
-------
str
    chemin du fichier corpus
getFormuleAgregation(self)
Getter formuleAgregation
 
Returns
-------
Enum FORMULES_AGREGATION
   MAX | SUM | MEAN
getLongueurMax(self)
Getter longueurMax
 
Returns
-------
int
    Longueur maximale d'un terme en nombre de mots
getLongueurMin(self)
Getter longueurMin
 
Returns
-------
int
    Longueur minimale d'un terme en nombre de mots
getMethodeExtraction(self)
Getter methodeExtraction
 
Returns
-------
Enum METHODES_EXTRACTION
    POSTAG | NGRAMMES
getMethodeScoring(self)
Getter methodeScoring
 
Returns
-------
Enum METHODES_SCORING
    FREQUENCE | TFIDF_STANDARD | TFIDF_LOG | OKAPI
getOutputPath(self)
Getter outputpath
 
Returns
-------
str
    chemin du fichier de sortie
getSeuilNbOccMin(self)
Getter seuilNbOccMin
 
Returns
-------
int
    Seuil minimal pour accepter un terme
getStem(self)
Getter stem
 
Returns
-------
bool
    stem
recuperationParams(self, txt)
Méthode qui récupère les paramètres définis en attribut depuis txt
 
Parameters
----------
txt : str
    Texte d'ensemble de lignes param = valeur, si la ligne commence
    par # elle est ignorée
 
Raises
------
KeyError
    Cette erreur est levée quand une valeur de paramètre n'est pas valide
ValueError
    Cette erreur est levée quand une valeur entière ou un booléen n'est pas
    valide, ou quand un paramètre du fichier config n'est pas un paramètre
    légale, ou encore lorsque un paramètre n'est pas présent dans le fichier
    de config.

Data descriptors defined here:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)

 
class FORMULES_AGREGATION(enum.Enum)
    FORMULES_AGREGATION(value, names=None, *, module=None, qualname=None, type=None, start=1)
 
An enumeration.
 
 
Method resolution order:
FORMULES_AGREGATION
enum.Enum
builtins.object

Data and other attributes defined here:
MAX = <FORMULES_AGREGATION.MAX: 1>
MEAN = <FORMULES_AGREGATION.MEAN: 3>
SUM = <FORMULES_AGREGATION.SUM: 2>

Data descriptors inherited from enum.Enum:
name
The name of the Enum member.
value
The value of the Enum member.

Readonly properties inherited from enum.EnumMeta:
__members__
Returns a mapping of member name->value.
 
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.

 
class METHODES_EXTRACTION(enum.Enum)
    METHODES_EXTRACTION(value, names=None, *, module=None, qualname=None, type=None, start=1)
 
An enumeration.
 
 
Method resolution order:
METHODES_EXTRACTION
enum.Enum
builtins.object

Data and other attributes defined here:
NGRAMMES = <METHODES_EXTRACTION.NGRAMMES: 2>
POSTAG = <METHODES_EXTRACTION.POSTAG: 1>

Data descriptors inherited from enum.Enum:
name
The name of the Enum member.
value
The value of the Enum member.

Readonly properties inherited from enum.EnumMeta:
__members__
Returns a mapping of member name->value.
 
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.

 
class METHODES_SCORING(enum.Enum)
    METHODES_SCORING(value, names=None, *, module=None, qualname=None, type=None, start=1)
 
An enumeration.
 
 
Method resolution order:
METHODES_SCORING
enum.Enum
builtins.object

Data and other attributes defined here:
CVALUE = <METHODES_SCORING.CVALUE: 5>
FREQUENCE = <METHODES_SCORING.FREQUENCE: 1>
OKAPI = <METHODES_SCORING.OKAPI: 4>
TFIDF_LOG = <METHODES_SCORING.TFIDF_LOG: 3>
TFIDF_STANDARD = <METHODES_SCORING.TFIDF_STANDARD: 2>

Data descriptors inherited from enum.Enum:
name
The name of the Enum member.
value
The value of the Enum member.

Readonly properties inherited from enum.EnumMeta:
__members__
Returns a mapping of member name->value.
 
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.

 
Data
        PARAMS_OBLIGATOIRE = ['STEM', 'METHODEEXTRACTION', 'LONGUEURMIN', 'LONGUEURMAX', 'SEUILNBOCCMIN', 'METHODESCORING', 'FORMULEAGREGATION', 'CVALUE', 'CORPUSPATH', 'OUTPUTPATH']