Le site de Nicolas Anquetil


Notes de recherche sur l'Unicode khmer

Date : mai 2008.

Formation du mot Kampoutchéa [Cambodge] en khmer

Les polices de caractères informatiques [plus couramment appelées : fonts] cambodgiennes ont fait leur apparition de manière assez anarchique à partir des années 80. Le principal défaut de ces familles de polices comme les Limon ou ABC Zero-Space, pour n'en citer que deux des plus utilisées, vient de leur système d'encodage qui est différent d'une famille de polices à une autre. Ce qui implique que la configuration et le pilote [driver] de clavier voire les tailles et les espaces des caractères affichés soient différents d'un ordinateur à un autre. Cet état de fait explique en partie pourquoi les sites Web hébergés au Cambodge sont souvent écrits en anglais ou en français. Il arrive également fréquemment que le texte en khmer soit publié en tant qu'image.

L'alternative la plus crédible actuellement est l'utilisation du standard Unicode mais son utilisation pose encore quelques difficultés que nous allons développer. Unicode est une norme informatique, développée par le consortium Unicode, qui vise à donner à tout caractère de n'importe quel système d'écriture de langue un nom et un identifiant numérique, ainsi que des règles sur la sémantique de ces caractères, leurs compositions et la manière de combiner ces différents systèmes, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel. Son utilisation assure de plus une compatibilité ascendante totale : tout texte conforme à une version antérieure reste conforme dans les versions ultérieures. Unicode ne code en revanche pas les représentations graphiques des caractères, les glyphes [source : Wikipédia].

La langue khmère bien qu'atonale possède plusieurs registres vocaliques : les voyelles peuvent être allongées [dites voyelles longues], raccourcies [dites voyelles brèves], diphtonguées, reposer sur des consonnes aspirées ou non aspirées, ce qui en modifie complètement le sens. Cette particularité fait du cambodgien un des plus riches systèmes vocaliques au monde. Au niveau de l'écriture, pour adapter les polices de caractères informatiques, il faut gérer un ordonnancement, sur plusieurs niveaux, de 33 consonnes, 32 consonnes souscrites, 28 voyelles, 14 voyelles indépendantes et 10 ligatures, sans compter les chiffres et la ponctuation. La principale difficulté ici étant de gérer l'hétérogénéité dans la disposition des signes-voyelles par rapport à la consonne. Un autre problème de taille à résoudre pour les informaticiens sont les coupures des lignes car les mots se suivent sans qu'une espace ne les sépare. les coupures s'effectuant à la frontière des syllabes.

Les jeux de caractères cambodgiens sont divisés en deux blocs :

Dans ce système de codage, nous ne pouvons plus taper les textes comme nous le faisions auparavant. Il y a un ordre précis à respecter pour taper les caractères et un pilote de clavier khmer unicode doit être préalablement installé. Le premier caractère est toujours une consonne, puis vient l'accent ["^^" - trey sap] ou [" - mou sekkateun], ensuite le ou les pieds s'il y en a, l'accent ou la voyelle en haut [suscrite], l'accent ou la voyelle en bas [souscrite] et la voyelle derrière [postposée] la consonne. Lorsque l'ordre n'est pas respecté, un caractère rond s'affiche pour signaler l'erreur.

Exemple de saisie unicode d'un mot khmer

Le passage de l'ordre logique [le codage] à l'ordre visuel [l'affichage des glyphes] nécessite la version 1.453.3665.0 et plus, du moteur de rendu Uniscribe Unicode Script Processor Library [usp10.dll]. Ce moteur d'affichage fait partie intégrante du système d'exploitation Windows, pour les versions ultérieures à Vista, ce fichier doit être impérativement mis à jour.

L'étape suivante consiste à passer de l'espace de codage de caractère qu'est Unicode à la représentation de ces caractères en termes de glyphes, les composants des polices, qui doivent elles aussi répondre à cette norme. Elles sont du type Open Type Font pour Microsoft ou AAT [Apple Advanced Typography] pour Apple et nécessite d'être installées sur l'ordinateur.

Ce modèle bien que respectant les principes d'Unicode présente des difficultés tant dans la mise en œuvre [nécessaire apprentissage du codage en ordre logique] que dans l'utilisation [l'usager doit manipuler et installer puis configurer dans le dossier système de son ordinateur de nombreux fichiers]. La complexité du système de rendu de l'écriture khmère Unicode conçu au détriment de l'intuitivité et de la simplicité est un véritable frein à sa démocratisation dans un pays où le système éducatif a été complétement anéanti sous le régime génocidaire des Khmers rouges [selon un sondage publié début mai 2008 par le journal Phnom Penh Post et mené dans 14 villes du pays. Environ 13 000 Cambodgiens sont abonnés à l'Internet. La plupart des internautes se trouvant dans la capitale, Phnom Penh, et dans la province touristique de Siem Reap. Parmi les personnes sondées, environ 21,5% des internautes sont insatisfaits du coût, 44,6% le sont de la fiabilité et 5,7% de la vitesse].

Ressources documentaires :

Autre article traitant de la même thématique : Le dictionnaire khmer/français/anglais - langue des signes khmère [septembre 2007].

[Retour à la page précédenteretour] [Aide à la navigation - Vers le haut de cette page]