ANALYSES CORPUS DEVELOPPEMENT

ACCUEIL


Le développement d'une grammaire d'analyse impose la construction d'un corpus de textes modèles. Ce corpus se construit au fur et ? mesure de la rencontre de textes mal analysés. Quelque soit le texte en entrée, l'analyseur SYGFRAN produit toujours un résultat. Si ce résultat est correct il n'y aura aucune modification des données linguistiques ou du corpus. Si le résultat est incorrect, les données linguistiques sont modifiées pour prendre en compte ce nouveau texte. Dans ce cas, avant de valider les modifications, il faut s'assurer qu'il n'y a pas d'incidences sur les analyses antérieures ( non régression de l'analyseur ). Pour cela tous les résultats des différentes phrases du corpus sont conservés. Avant validation il y a donc une comparaison de tous les résultats précédents avec une analyse dépendante de la nouvelle version. Si cette comparaison est correcte la nouvelle phrase est ajoutée au corpus et son analyse conservée. Actuellement le corpus est de 3,2M. Ce corpus est divisé en groupes de phrases. Ces groupes sont de taille variable et sont référencés comme "textexxx.txt". Le tableau suivant donne, pour chaque bloc, un accès au contenu de ce bloc, un accès au résultat du taggage de ce bloc, un accès ? la structure syntaxique de ce bloc et enfin sa taille en octets. Une exception toutefois : le fichier "prince.txt" correspond au livre complet de Saint Exupéry et a donc une cohérence sémantique ? l'opposé des autres blocs qui ne sont que des compilations de phrases qui ont servi à la construction de l'analyseur.



La très grande qualité du taggage est due au fait que ce dernier intervient après l'analyse syntaxique. Si cette analyse est correcte ( environ 70% des phrases pour un texte quelconque ) le taggage est correct ? 100%. Si l'analyse syntaxique est incomplète alors le résultat est constitué de groupes reconnus. Pour ces groupes le taggage est également correct à 100%. Seuls les éléments intermédiaires non reconnus ou avec une reconnaissance erronée peuvent produire une erreur de taggage. Cela arrive dans moins de 1% des cas.

L'inconvénient de cette méthode est que le taggage nécessite plus de ressouces de calcul que l'analyse syntaxique simple.
Exemple:
Texte Temps Analyse Temps Taggage
texte072.txt 17s 27s
texte102.txt 48s 2mn 28s

Il est donc préférable pour les opérations de taggage de traiter des parties de textes d'une longueur d'une dizaine de Kilo octets, car dans ce cas la pénalisation par rapport ? l'analyse n'est que de 50%.

Bien sûr toutes les informations données par le taggage sont dans la structure syntaxique et il n'est donc pas nécessaire d'utiliser le taggage sous réserve de lire les feuilles d'une structure syntaxique qui peut ne pas être projective ( les feuilles de la structure ne sont pas forcément dans l'ordre du texte ).

Accès aux éléments du corpus :

texte001.txt

tag

structure

1646

texte002.txt

tag

structure

4198

texte003.txt

tag

structure

2548

texte004.txt

tag

structure

1641

texte005.txt

tag

structure

3450

texte006.txt

tag

structure

966

texte007.txt

tag

structure

1406

texte008.txt

tag

structure

4169

texte009.txt

tag

structure

3622

texte010.txt

tag

structure

3309

texte011.txt

tag

structure

877

texte012.txt

tag

structure

3334

texte013.txt

tag

structure

441

texte014.txt

tag

structure

719

texte015.txt

tag

structure

1913

texte016.txt

tag

structure

519

texte017.txt

tag

structure

1106

texte018.txt

tag

structure

2129

texte019.txt

tag

structure

420

texte020.txt

tag

structure

2315

texte021.txt

tag

structure

4650

texte022.txt

tag

structure

6153

texte023.txt

tag

structure

5016

texte024.txt

tag

structure

4391

texte025.txt

tag

structure

134

texte026.txt

tag

structure

1105

texte027.txt

tag

structure

1230

texte028.txt

tag

structure

10828

texte029.txt

tag

structure

10091

texte030.txt

tag

structure

1914

texte031.txt

tag

structure

3776

texte032.txt

tag

structure

4467

texte033.txt

tag

structure

5475

texte034.txt

tag

structure

3134

texte035.txt

tag

structure

2823

texte036.txt

tag

structure

9231

texte037.txt

tag

structure

4832

texte038.txt

tag

structure

2821

texte039.txt

tag

structure

6480

texte040.txt

tag

structure

4109

texte041.txt

tag

structure

6001

texte042.txt

tag

structure

5275

texte043.txt

tag

structure

5930

texte044.txt

tag

structure

3584

texte045.txt

tag

structure

9328

texte046.txt

tag

structure

5211

texte047.txt

tag

structure

6540

texte048.txt

tag

structure

7725

texte049.txt

tag

structure

4854

texte050.txt

tag

structure

10404

texte051.txt

tag

structure

9877

texte052.txt

tag

structure

8660

texte053.txt

tag

structure

7318

texte054.txt

tag

structure

2106

texte055.txt

tag

structure

8959

texte056.txt

tag

structure

11188

texte057.txt

tag

structure

8907

texte058.txt

tag

structure

14148

texte059.txt

tag

structure

15102

texte060.txt

tag

structure

16484

texte061.txt

tag

structure

14912

texte062.txt

tag

structure

14330

texte063.txt

tag

structure

16046

texte064.txt

tag

structure

14708

texte065.txt

tag

structure

15024

texte066.txt

tag

structure

13531

texte067.txt

tag

structure

16916

texte068.txt

tag

structure

16640

texte069.txt

tag

structure

19974

texte070.txt

tag

structure

18221

texte071.txt

tag

structure

17742

texte072.txt

tag

structure

11013

texte073.txt

tag

structure

11819

texte074.txt

tag

structure

10257

texte075.txt

tag

structure

12137

texte076.txt

tag

structure

10317

texte077.txt

tag

structure

11563

texte078.txt

tag

structure

14455

texte079.txt

tag

structure

15285

texte080.txt

tag

structure

19382

texte081.txt

tag

structure

20698

texte082.txt

tag

structure

16672

texte083.txt

tag

structure

16701

texte084.txt

tag

structure

17238

texte085.txt

tag

structure

15618

texte086.txt

tag

structure

20077

texte087.txt

tag

structure

18759

texte088.txt

tag

structure

19574

texte089.txt

tag

structure

25646

texte090.txt

tag

structure

25324

texte091.txt

tag

structure

29352

texte092.txt

tag

structure

31924

texte093.txt

tag

structure

26074

texte094.txt

tag

structure

24789

texte095.txt

tag

structure

26952

texte096.txt

tag

structure

26255

texte097.txt

tag

structure

27494

texte098.txt

tag

structure

28483

texte099.txt

tag

structure

29741

texte100.txt

tag

structure

26101

texte101.txt

tag

structure

31059

texte102.txt

tag

structure

33006

texte103.txt

tag

structure

32011

texte104.txt

tag

structure

33308

texte105.txt

tag

structure

32357

texte106.txt

tag

structure

29942

texte107.txt

tag

structure

26648

texte108.txt

tag

structure

31551

texte109.txt

tag

structure

3817

texte110.txt

tag

structure

32005

texte111.txt

tag

structure

30539

texte112.txt

tag

structure

33070

texte113.txt

tag

structure

32504

texte114.txt

tag

structure

28159

texte115.txt

tag

structure

34049

texte116.txt

tag

structure

30465

texte117.txt

tag

structure

32486

texte118.txt

tag

structure

30029

texte119.txt

tag

structure

32540

texte120.txt

tag

structure

39884

texte121.txt

tag

structure

32377

texte122.txt

tag

structure

35027

texte123.txt

tag

structure

36118

texte124.txt

tag

structure

29954

texte125.txt

tag

structure

34713

texte126.txt

tag

structure

34940

texte127.txt

tag

structure

35384

texte128.txt

tag

structure

31743

texte129.txt

tag

structure

33257

texte130.txt

tag

structure

29018

texte131.txt

tag

structure

31064

texte132.txt

tag

structure

32705

texte133.txt

tag

structure

23871

texte134.txt

tag

structure

28252

texte135.txt

tag

structure

30259

texte136.txt

tag

structure

25624

texte137.txt

tag

structure

15169

texte138.txt

tag

structure

30080

texte139.txt

tag

structure

30055

texte140.txt

tag

structure

23239

texte141.txt

tag

structure

33656

texte142.txt

tag

structure

29879

texte143.txt

tag

structure

26070

texte144.txt

tag

structure

22734

texte145.txt

tag

structure

28637

texte146.txt

tag

structure

24968

texte147.txt

tag

structure

25318

texte148.txt

tag

structure

23083

texte149.txt

tag

structure

30293

texte150.txt

tag

structure

46948

texte151.txt

tag

structure

32011

texte152.txt

tag

structure

14111

texte153.txt

tag

structure

36971

texte154.txt

tag

structure

15521

texte155.txt

tag

structure

40398

texte156.txt

tag

structure

13321

texte157.txt

tag

structure

22025

texte158.txt

tag

structure

24430

texte159.txt

tag

structure

24912

texte160.txt

tag

structure

13603

texte161.txt

tag

structure

27642

texte162.txt

tag

structure

11015

texte163.txt

tag

structure

29060

texte164.txt

tag

structure

16162

texte165.txt

tag

structure

36025

texte166.txt

tag

structure

28493

texte167.txt

tag

structure

34672

texte168.txt

tag

structure

20626

texte169.txt

tag

structure

12272

texte170.txt

tag

structure

3370

texte171.txt

tag

structure

43498

texte172.txt

tag

structure

19102

texte173.txt

tag

structure

27547

texte174.txt

tag

structure

33274

texte175.txt

tag

structure

13615

prince.txt

tag

structure

87607