• Sommaire

    • [+]Préliminaires (3)
    • [+]Introduction (4)
    • [+]Amérique latine (13)
    • [+]Afrique subsaharienne (9)
    • [—]Monde arabe (11)
    • [+]Russie (11)
    • [+]Inde (11)
    • [+]Chine (9)
    • [+]Conclusions (6)
    • [+]Annexes (1)

Monde arabe

Les difficultés techniques de l’édition numérique en arabe : ePub et OCR

L’utilisation des formats PDF ou Flash ne présente aucune complication technique pour les éditeurs locaux. En revanche, Ramy Habeeb, le cofondateur de Kotobarabia, explique que lorsqu’un texte en arabe a été mis en page, même très soigneusement, avec InDesign ou d’autres outils similaires, le convertir en ePub est extrêmement difficile, et ce pour différentes raisons :

1) Le flux de texte va de droite à gauche, ce qui amène des conflits de mise en page : s’il y a à l’intérieur du fichier ePub des paragraphes en indentation ou des citations, ils ne seront pas visualisés correctement. C’est-à-dire que même quand le flux de texte apparaît correctement, certains formats font que les caractères deviennent illisibles, ce qui oblige à résoudre le problème manuellement. On ne peut donc pas obtenir un fichier ePub directement à partir de fichiers RTF ou InDesign : il faut vérifier le texte ligne par ligne.

2) Un autre inconvénient est lié aux polices de caractères. R. Habeeb signale qu’il se passait la même chose dans l’édition européenne il y a quelques dizaines d’années, lorsque les maisons d’édition se distinguaient les unes des autres par leurs typographies. Chaque éditeur pouvait créer la sienne et il y avait pléthore de polices de caractères. Actuellement, cela ne constitue plus un inconvénient en Europe parce qu’il existe différents instruments standardisés, comme Microsoft Office ou InDesign. Ceci étant, pour les textes en arabe, la difficulté demeure, par exemple avec les citations du Coran. Les éditeurs s’attachent en effet à ce que ces lignes soient calligraphiées à l’aide d’une police de caractères d’une grande beauté, et, souvent, le convertisseur à l’ePub ne parvient pas à la décoder. Une solution pourrait être de traiter ces polices comme des images, mais ici surgit le problème supplémentaire d’insérer une image dans un fichier.

3) En troisième lieu, la plupart des lettres arabes peuvent être représentées selon trois ou quatre formes différentes : la forme différera si la lettre apparaît isolée, ou encore si elle se trouve au début, au milieu ou à la fin du mot. Souvent, celui qui assure la mise en page a besoin que la lettre ait sa forme de milieu de mot, mais elle apparaît comme si elle était isolée, et il en résulte un véritable galimatias.

4) Enfin, l’arabe classique – qui n’est pas utilisé tout le temps, mais est l’attribut des textes érudits – présente une accentuation ou Teshkiel. On peut avoir par exemple un « b », ou un « c » et placer sur ces lettres 5 accents différents, ce qui représente un véritable défi technique au moment de convertir ce texte au format ePub [1].

Si la multiplicité des polices de caractères de l’arabe constitue une difficulté pour la conversion à l’ePub, le même problème apparaît au moment d’utiliser des systèmes de reconnaissance optique de textes (OCR). R. Habeeb l’explique en ces termes :

Il y a tant de points, de lignes et d’autres détails, qu’un système d’OCR confond fréquemment les lettres, ce qui contribue à compliquer les choses. Comme l’industrie éditoriale est relativement pauvre, le papier et l’encre ne sont pas toujours de la meilleure qualité, ce qui peut avoir pour conséquence un scannage infructueux. La combinaison de tous ces facteurs fait que l’OCR se convertit souvent en une mission des plus complexes.

Il est intéressant d’examiner la stratégie mise en œuvre par Kotobarabia pour dépasser ces écueils techniques :

Dans notre cas, chaque livre passe par l’un de ces deux processus : 1) Nous réécrivons le texte de façon à ce qu’il soit entièrement indexable. Nous avons découvert que ressaisir un livre et le corriger est, de fait, plus économique que de travailler avec le software d’OCR aujourd’hui disponible sur le marché. Ensuite, on produit la métadonnée associée, et on télécharge le contenu sur le site, en le convertissant aux deux formats que nous utilisons. 2) Une autre possibilité est de scanner : notre équipe lira ensuite ces pages et sélectionnera des mots-clés de manière à ce que le livre soit semi-indexable. C’est ce que nous faisons pour la majorité de nos livres. Lorsqu’un titre est très consulté ou qu’il présente un intérêt particulier, nous revenons en arrière et nous le resaisissons. C’est une option plus économique et un business model qui s’inscrit mieux dans un développement durable [2].


Notes    
  1. Entretien, décembre 2010.
  2. Turner, James : “Bringing e-Books to Africa and the Middle East”, O’Reilly Radar, 19 janvier 2010.

4 Commentaires

  1. Hedaya

     /  19/07/2011

    Very interesting. I hope we will continue to have people such as Habeeb following up with this. I’m hopeful that soon we will soon a plethora of Arabic texts available in epub format.

  2. Soon this will be updated. We once struggled to OCR an Arab book. Its just a three days work took a week to get completed. My technical guys tried their best to bring out the book.

  3. thierry quinqueton

     /  27/08/2011

    I think this question is a very important one considering cultural diversity. Universities and big libraries, inside this arabic area, but also in other parts of the world must be associated.

  4. No need to exaggerate. There is always a work around and following is one of them. For current technology, only way to get accurate text in Arabic is either using pdf or image.

    With following version you can read you book in two different font size assuming you have landscape mode on your device. If not, no problem just download your epub in landscape mode. Rest is explained in the post.

    http://avaxhome.ws/ebooks/religion/The_Quran_Arabic_Hayrat_Nesriyat_Epub_Mobi_Prc_Kuran_Hayrat_Nesriyat.html

    Also, I tried Indesign and many other ways but no use. Using html is much easier than using intermediate software.

Laisser un commentaire