Remarques sur l'efficacité du correcteur orthographique

Evit kaozeal diwar-benn an difazier brezhonek
Avatar de l’utilisateur
drouizig
Site Admin
Messages : 484
Inscription : mar. nov. 16, 2004 11:45 am
Localisation : Gwened/Sant-Brieg/Pouldreuzig
Contact :

Remarques sur l'efficacité du correcteur orthographique

Message par drouizig »

Ces remarques font suite à la correspondance électronique entre An Drouizig et plusieurs étudiants en informatique de Paris VII.

Remarques générales sur l'efficacité d'un correcteur orthographique

L'efficacité d'un correcteur orthographique se mesure sur deux critères principaux. En premier lieu, à l'évidence, l'exhaustivité du dictionnaire numérique recensant les formes acceptées est primordiale. Le deuxième point important est la pertinence des suggestions proposées aux mots mal orthographiés.

1) Le dictionnaire numérique, exhaustif, oui mais pas trop…

Le premier point doit être rapidement nuancé car la recherche d'une exhaustivité maximale a des effets néfastes. Prenons l'exemple en breton du mot "dezhan". Orthographié ainsi il apparaît fautif à première vue, le tilde final faisant défaut. Pourquoi le correcteur l'accepterait t-il alors ? La raison est l'existence du verbe obscur "tezhañ", issu de la néologie Imbourc'h et signifiant "voyager". Reconnaître ce verbe obscur entraîne automatiquement la reconnaissance de la forme conjuguée et mutée "dezhan". Pas de chance…

Même remarque avec le verbe 'gwellaat' dont les formes conjuguées peuvent entrer en conflit avec celles du verbe 'gwelout', verbe bien plus usité que 'gwellaat'. La faute fréquente qui consiste à conjuguer 'gwelout' avec deux 'l' pourra donc passer inaperçue.

On le voit dans ces deux exemples simples, rechercher l'exhaustivité du dictionnaire numérique a des effets pervers. Il est donc intéressant de trouver un juste milieu, la recherche de cet équilibre peut passer par l'élimination pure et simple des mots obscurs, inusités, entrant en conflit avec des formes plus courantes. "tezhañ" pourra être éliminé, en revanche pour 'gwellaat' cela est plus discutable.

Dans le cadre du programme ADD, il sera donc intéressant de désactiver dans une première passe le chargement des dictionnaires techniques et dialectaux, quitte à les réactiver dans une deuxième passe si le lexique du texte s'y prête.

2) La pertinence des propositions


Les suggestions calculées par ADD sont basées sur l'ajout, la permutation et la suppression automatiques de lettre(s). L'algorithme teste aussi la division des mots.

On ne tient compte ni de la phonétique des mots (algorithme Soundex dont l'implémentation pourrait être envisagée), ni du contexte, comme le fait aujourd'hui par exemple le correcteur anglais dans Office 2007.

à suivre...
Répondre