| |
- builtins.object
-
- Config
- enum.Enum(builtins.object)
-
- FORMULES_AGREGATION
- METHODES_EXTRACTION
- METHODES_SCORING
class Config(builtins.object) |
|
Config(path)
Objet de configuration des paramètres de l'extraction et du scoring de termes
Attributes
----------
stem : bool
Si True permet de remplacer les termes par leur stem.
methodeExtraction : METHODES_EXTRACTION
Si POSTAG, permet d'extraire les termes avec du POS tagging ainsi avoir
des termes plus pertinents.
Si NGRAMMES, recupère les n-grammes de façon simple
longueurMin : int
Longueur minimale d'un terme en nombre de mots
longueurMax : int
Longueur maximale d'un terme en nombre de mots
seuilNbOccMin : int
Les termes ne sont pris en compte que s'ils sont présents plus de
seuilNbOccMin. Ce seuil s'applique sur les documents du corpus et non
sur le corpus.
methodeScoring : METHODES_SCORING
La façon dont laquelle on attribue un score au termes. Soit juste la
FREQUENCE, soit avec un TFIDF_STANDARD c'est-à-dire la formule est : tf*idf
ou bien TFIDF_LOG formule : (1+log(tf))*idf, ou encore la methode OKAPI
formuleAgregation : FORMULES_AGREGATION
Quand il y a plusieurs documents dans le corpus on doit agréger le score
des termes. Soit on prend le score max du terme parmi tous les documents,
soit on prend la sommme ou encore la moyenne.
cValue : bool
Si TRUE le score d'un terme sera la moyenne géometrique de la
methodeScoring et la C-Value, qui a pour but de pénaliser les termes
qui sont imbriqués dans d'autres.
corpusPath : str
Chemin du fichier corpus
outputPath : str
Chemin du fichier de sortie dans lequel on écrira le résultat |
|
Methods defined here:
- __init__(self, path)
- Constructeur de la classe Config
Intialise l'objet avec les valeurs du fichier de chemin path
Parameters
----------
path : str
Chemin du fichier de config
- copy(self)
- Renvoie une copie de cet objet
Returns
-------
Config
Une copie de l'objet
- getCValue(self)
- Getter cValue
Returns
-------
bool
cValue
- getCorpusPath(self)
- Getter corpusPath
Returns
-------
str
chemin du fichier corpus
- getFormuleAgregation(self)
- Getter formuleAgregation
Returns
-------
Enum FORMULES_AGREGATION
MAX | SUM | MEAN
- getLongueurMax(self)
- Getter longueurMax
Returns
-------
int
Longueur maximale d'un terme en nombre de mots
- getLongueurMin(self)
- Getter longueurMin
Returns
-------
int
Longueur minimale d'un terme en nombre de mots
- getMethodeExtraction(self)
- Getter methodeExtraction
Returns
-------
Enum METHODES_EXTRACTION
POSTAG | NGRAMMES
- getMethodeScoring(self)
- Getter methodeScoring
Returns
-------
Enum METHODES_SCORING
FREQUENCE | TFIDF_STANDARD | TFIDF_LOG | OKAPI
- getOutputPath(self)
- Getter outputpath
Returns
-------
str
chemin du fichier de sortie
- getSeuilNbOccMin(self)
- Getter seuilNbOccMin
Returns
-------
int
Seuil minimal pour accepter un terme
- getStem(self)
- Getter stem
Returns
-------
bool
stem
- recuperationParams(self, txt)
- Méthode qui récupère les paramètres définis en attribut depuis txt
Parameters
----------
txt : str
Texte d'ensemble de lignes param = valeur, si la ligne commence
par # elle est ignorée
Raises
------
KeyError
Cette erreur est levée quand une valeur de paramètre n'est pas valide
ValueError
Cette erreur est levée quand une valeur entière ou un booléen n'est pas
valide, ou quand un paramètre du fichier config n'est pas un paramètre
légale, ou encore lorsque un paramètre n'est pas présent dans le fichier
de config.
Data descriptors defined here:
- __dict__
- dictionary for instance variables (if defined)
- __weakref__
- list of weak references to the object (if defined)
|
class FORMULES_AGREGATION(enum.Enum) |
|
FORMULES_AGREGATION(value, names=None, *, module=None, qualname=None, type=None, start=1)
An enumeration. |
|
- Method resolution order:
- FORMULES_AGREGATION
- enum.Enum
- builtins.object
Data and other attributes defined here:
- MAX = <FORMULES_AGREGATION.MAX: 1>
- MEAN = <FORMULES_AGREGATION.MEAN: 3>
- SUM = <FORMULES_AGREGATION.SUM: 2>
Data descriptors inherited from enum.Enum:
- name
- The name of the Enum member.
- value
- The value of the Enum member.
Readonly properties inherited from enum.EnumMeta:
- __members__
- Returns a mapping of member name->value.
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.
|
class METHODES_EXTRACTION(enum.Enum) |
|
METHODES_EXTRACTION(value, names=None, *, module=None, qualname=None, type=None, start=1)
An enumeration. |
|
- Method resolution order:
- METHODES_EXTRACTION
- enum.Enum
- builtins.object
Data and other attributes defined here:
- NGRAMMES = <METHODES_EXTRACTION.NGRAMMES: 2>
- POSTAG = <METHODES_EXTRACTION.POSTAG: 1>
Data descriptors inherited from enum.Enum:
- name
- The name of the Enum member.
- value
- The value of the Enum member.
Readonly properties inherited from enum.EnumMeta:
- __members__
- Returns a mapping of member name->value.
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.
|
class METHODES_SCORING(enum.Enum) |
|
METHODES_SCORING(value, names=None, *, module=None, qualname=None, type=None, start=1)
An enumeration. |
|
- Method resolution order:
- METHODES_SCORING
- enum.Enum
- builtins.object
Data and other attributes defined here:
- CVALUE = <METHODES_SCORING.CVALUE: 5>
- FREQUENCE = <METHODES_SCORING.FREQUENCE: 1>
- OKAPI = <METHODES_SCORING.OKAPI: 4>
- TFIDF_LOG = <METHODES_SCORING.TFIDF_LOG: 3>
- TFIDF_STANDARD = <METHODES_SCORING.TFIDF_STANDARD: 2>
Data descriptors inherited from enum.Enum:
- name
- The name of the Enum member.
- value
- The value of the Enum member.
Readonly properties inherited from enum.EnumMeta:
- __members__
- Returns a mapping of member name->value.
This mapping lists all enum members, including aliases. Note that this
is a read-only view of the internal mapping.
| |