Le développement d'une grammaire d'analyse impose la construction d'un corpus de textes modèles. Ce corpus se construit au fur et ? mesure de la rencontre de
textes mal analysés. Quelque soit le texte en entrée, l'analyseur SYGFRAN produit toujours un résultat. Si ce résultat est correct il n'y aura aucune modification des
données linguistiques ou du corpus. Si le résultat est incorrect, les données linguistiques sont modifiées pour prendre en compte ce nouveau texte. Dans ce cas, avant
de valider les modifications, il faut s'assurer qu'il n'y a pas d'incidences sur les analyses antérieures ( non régression de l'analyseur ). Pour cela tous les résultats des
différentes phrases du corpus sont conservés. Avant validation il y a donc une comparaison de tous les résultats précédents avec une analyse dépendante de la nouvelle
version. Si cette comparaison est correcte la nouvelle phrase est ajoutée au corpus et son analyse conservée. Actuellement le corpus
est de 3,2M. Ce corpus est divisé en groupes de phrases. Ces groupes sont de taille variable et sont référencés comme "textexxx.txt". Le tableau
suivant donne, pour chaque bloc, un accès au contenu de ce bloc, un accès au résultat du taggage de ce bloc, un accès ? la structure syntaxique de ce bloc et enfin
sa taille en octets. Une exception toutefois : le fichier "prince.txt" correspond au livre complet de Saint Exupéry et a donc une cohérence sémantique ? l'opposé des autres
blocs qui ne sont que des compilations de phrases qui ont servi à la construction de l'analyseur.
|