Le dictionnaire se compose exclusivement de mots orthographiés selon la norme unifiée, dénommée aussi parfois « Breton KLTG » ou encore en breton, Brezhoneg peurunvan (= Breton « tout à fait » unifié).
Cette norme se distingue par l'utilisation fréquente du « zh ». Par exemple, on écrit « Breizh », forme unifiée de « Breiz » (KLT) et « Breih » (Gw). Deux autres exemples, on écrit la graphie « evit » quand d'autres écriraient « ewid » ou « evid », on écrit « enderv » quand d'autres écriraient « enderw » ou « endero ». Ce « v » terminal qui surprendra plus d'un bretonnant, aussi bien néo que de naissance, est une proposition de Xavier de Langlais pour prendre en compte le dialecte du Goëlo (Plouha, Paimpol) dont les locuteurs prononcent « enderff, glaff, piff ... » quand la majorité des bretonnants prononceront « enderow, glaow, piouw ... »
Cette norme se caractérise aussi par l'utilisation du « ñ » terminal aux infinitifs de verbes « kanañ », « prientiñ » ... et aux superlatifs « brasañ », « bihanañ » ...
Certaines formes dialectales assez fréquentes comme àr, teus, meump, … pourront être incluses dans le dictionnaire.
Les lettres de l'alphabet breton unifié sont les suivantes :
a b ch c'h d e f g h i j k l m n o p r s t u v w y z.
Notez qu'il n'y a pas de c (autre que dans les polygraphes ch et c'h) , ni de q, ni de x. Pour des raisons évidentes, les lettres c, q et x ne seront pas gérées comme des lettres allogènes et ainsi ne se comporteront pas comme des séparateurs de mots. En revanche, vous pouvez être certain qu’un mot incluant une de ces lettres sera étranger au dictionnaire.
Les quatre lettres de l'alphabet breton unifié pouvant être accentuées sont traditionnellement les suivantes :
ù ñ ü ê
On trouvera cependant les trois â û ô dans les seuls mots kornôg, skuizh-ôg, lârout (lâr-) et goût. Enfin, les deux à é peuvent se rencontrer accessoirement sur des formes dialectales vannetaises.
Exemples de mots bretons composés de lettres accentuées :
lâr ; kêrioù ; àr ; brasañ ; é ; kornôg ; skuizh-ôg ; û ; emroüs ; goût
Tout mot incorrectement accentué sera marqué par le correcteur. Attention, certains caractères accentués exotiques (õ, ø, ó, ã, å, …) peuvent agir comme séparateur de mot.
On rencontre 5 cas:
· Les suffixes courants :
Dans ce premier cas, le mot privé de son suffixe est testé. S'il est inconnu des dictionnaires seul ce premier mot est souligné.
· Les préfixes ez- et ent- :
· Les mots composés :
Pour ces deuxième et troisième cas le mot entier est testé, tiret compris. Il sera souligné d'un seul bloc s'il est absent du dictionnaire.
· Les constructions idiomatiques :
Ce quatrième cas est correctement géré.
· Les noms propres associés :
Ce cinquième cas peut poser problème.
Le caractère apostrophe pose problème en breton car il fait partie du lexique alphabétique.
On rencontre ainsi 3 cas d’utilisation de l’apostrophe :
· Le c'h :
Si un mot incluant le polygraphe c'h est inconnu du dictionnaire, le mot entier est souligné, comme pour tout autre mot standard.
· L'élision :
Dans le cas de l'élision, l'apostrophe se rattache toujours au premier mot. Ainsi « n'on » se compose du mot élidé « n' » et du mot entier « on ». Les mots « n' » et « on » doivent être présents indépendamment dans le dictionnaire. Chaque mot absent est marqué.
· La contraction :
Dans ce dernier cas le comportement du correcteur est plus aléatoire et dépend globalement de la fréquence des formes contractées. On trouvera 'peus et ane'i dans le dictionnaire, mais d'autres formes plus obscures ou ambiguës pourront être marquées comme inconnues.
Une remarque importante. Notez que certains logiciels peuvent substituer au caractère apostrophe classique ', dont le code ASCII est 0x06, d'autres types d'apostrophes moins usitées, telles que les caractères 0x60, 0x91, 0x92 et 0xB4. C'est le cas de Microsoft Word en mode autocorrection. C'est aussi le cas de Microsoft PowerPoint. An Drouizig Difazier sait reconnaître ces caractères et les traite comme une apostrophe courante.
Deux cas peuvent être discutés ici. D'une part le cas des majuscules accentuées, d'autre part le cas des graphes « composés », à savoir les cas ch et c'h.
Doit-on autoriser les graphies :
An Drouizig Difazier autorise les mots Û, HAG-EÑ, Bro-C'hall et Chom.
La mutation des noms propres peut être écrite, dans ce cas plusieurs possibilités existent. Elle peut très bien ne pas l’être non plus. Ainsi on trouve historiquement dans la littérature bretonne (« Buhez ar Sent », etc.) la graphie « An Itron Varia ». On pourra trouver aussi la mutation écrite de la façon suivante « An Itron vMaria ».
Il a été choisi de faire muter l’initiale des noms propres dans son intégralité. A l’instar des noms communs, on trouvera donc dans le dictionnaire les noms propres et toutes leurs formes mutées,
Le dictionnaire contient environ 350000 mots. Soit une base de 20000 mots à laquelle viennent s'ajouter leurs très (très) nombreuses formes dérivées.
· verbes. (17,5%)
3500
· noms communs. (65%)
8000 (m.) + 4000 (f.) + 300 (pl.) + 80 (d.) 12380
· adjectifs. (13%)
2600
· prépositions. (et le reste soit 4,5%)
· interjections.
· adverbes.
· pronoms.
· noms propres (Prénoms bretons, villes de Bretagne, Pays du monde, villes de France et du monde, …).
· conjonctions
· exclamations
· ordinaux
· cardinaux
· articles
· formes contractées
900
Soit, en tout, une approximation de 20000 mots (350000 formes différentes).