Presse Juive du Passé > A propos > Aspects Technologiques

Aspects Technologiques

 

Les technologies qui sous-tendent le projet

Deux technologies principales sous-tendent la révolution informatique des textes, c'est-à-dire la transformation d'une matière imprimée sur du papier en fichier numérique (ou, selon la terminologie technique: la numérisation des textes):
  1. la technologie du scannage
  2. la technologie de la reconnaissance optique de caractères (Optical Character Recognition – OCR)
Le scannage est une photographie de la matière imprimée et sa conversion en un fichier image. De ce point de vue, le scannage d'un dessin et celui d'un texte produisent le même type d'objet dans la mesure où l'ordinateur n'est pas capable de distinguer qu'il a affaire à un texte dans le deuxième cas. C'est pour cette raison que la technologie de la reconnaissance optique de caractères est utile, en ce qu'elle permet de convertir un fichier-image dans lequel il y a du texte, en un véritable fichier-texte sur lequel il est possible de procéder à une recherche. Cela est rendu possible par l'identification de modèles de points comme lettres dans un mot. Ces deux technologies (le scannage et la reconnaissance optique de caractères) sont relativement anciennes: la technologie du scannage a été appliquée avec succès dès la fin des années 50 du 20ème siècle tandis que la technologie de la reconnaissance optique de caractères a été exploitée commercialement depuis les années 60 du siècle dernier. Toutefois, ces deux technologies ont été beaucoup améliorées avec les années et les programmes qui les appliquent sont capables de faire face à une grande variété de langues et de polices (types de lettres). De même, le pourcentage de reconnaissance pour chaque langue a considérablement augmenté ces dernières années, et en supposant une bonne qualité du matériau originel et du scannage, il est possible d'atteindre une reconnaissance supérieure à 90%.
Lorsqu'on passe de la numérisation de textes simples (lettres ou documents officiels) à des journaux, une troisième technologie présente une grande importance:
  1. La technologie de la segmentation
La segmentation consiste à diviser la page scannée selon les différentes parties logiques qui la composent. En matière de journaux, la segmentation consiste à diviser la page selon les différents articles qu'elle contient. Sans cette division, la plus petite unité de recherche serait la page et l'ordre des résultats de la recherche dépendrait du nombre de fois où la notion apparaît dans la page. Il va de soi qu'une telle méthode d'ordonnancement des résultats serait problématique dès lors que l'unité d'information de base dans un journal n'est pas la page mais l'article, lequel peut tout aussi bien prendre une petite place dans la page que s'étendre sur plus d'une page. Grâce à la technologie de la segmentation, domaine dans lequel la société 'Olive Software' est à la pointe, l'utilisateur peut recevoir les résultats de sa recherche sous la forme des articles originaux ainsi que connaître le degré de pertinence de chaque article au regard des mots à partir desquels la recherche a été faite.
 
 

Comment ces technologies sont-elles appliquées dans le site 'Presse juive du passé'?

Le scannage du journal est effectué à partir de l'une des trois sources possibles: papier, microfilm ou microfiche, étant observé que l'effort est porté sur la recherche du meilleur exemplaire du point de vue de la qualité de l'impression, et le plus complet parmi les numéros dont on dispose. Ce n'est pas une mince affaire du fait que les numéros se trouvent en processus continu d'usure et d'émiettement. En ce sens, les processus de scannage du matériau d'archive et des journaux anciens en particulier, sont une façon de contribuer au sauvetage de l'information historique, sans lequel celle-ci serait perdue pour toujours.
Les deux autres technologies – la reconnaissance et la segmentation – fonctionnent par le biais du logiciel 'Active Paper' qui travaillent les pages scannées pour en faire une version électronique du journal. Cette étape, qui est essentiellement automatique, comprend l'identification de toutes les composantes de l'article, lequel constitue comme nous l'avons dit l'unité de base du journal:
  • le titre
  • le sous-titre
  • le corps de l'article
  • l'illustration ou l'image qui accompagnent l'article
La typographie particulière à chacune de ces composantes est identifiée, ce qui permet de lui donner le degré de pertinence adéquat. Par exemple, si l'on cherche un certain vocable (mettons, un nom), le système accordera une préférence aux articles dans lesquels il apparaîtra dans le titre plutôt qu'à ceux où le même vocable apparaîtra dans le corps de l'article.
Le produit résultant de l'étape de la conversion est un ensemble de fichiers qui constituent la version électronique de la publication. Tout article est composé de fichiers-image de l'article d'origine et de fichiers-texte des mots qui ont été reconnus par l'OCR. Ce que l'utilisateur voit lorsqu'il visionne l'article est en fait son image, tandis que les mots identifiés se situent 'derrière' cette image. La technologie XML (Extensible Markup Language) est utilisée pour la présentation des journaux, ce qui permettra dans l'avenir de faire évoluer les documents vers d'autres plateformes.
 
 

Les limites de la technologie

Bien que les trois technologies principales utilisées (scannage, OCR et segmentation) soient sérieuses et éprouvées, elles ne sont pas parfaites. La reconnaissance du texte tout comme celle de la segmentation ne sont pas fiables à 100% et plus la qualité du matériau est basse plus le pourcentage de reconnaissance sera bas. Du fait que le site 'Presse juive du passé' traite de journaux anciens, voire très anciens, nous sommes confrontés à divers phénomènes qui menacent constamment le processus de reconnaissance: mauvaise qualité d'impression (qui caractérise les publications très anciennes), papier jauni, taches dans l'impression originelle, polices spécifiques, pages déchirées, pages griffonnées ou même rongées par des parasites.
Les limites résultant à la fois des technologies et des matières premières sur lesquelles l'on travaille se traduisent concrètement par deux phénomènes: les erreurs de reconnaissance de mots et les erreurs de segmentation. Les erreurs de reconnaissance de mots se traduisent soit par des mots existants qui n'apparaissent pas, soit par des mots qui apparaissent de façon erronée. Dans le premier cas, l'utilisateur verra qu'un certain mot existe dans l'article mais n'est pas trouvé par le moteur de recherche. Dans le deuxième cas, l'utilisateur constatera que le mot qui a été reconnu n'est pas identique au mot qu'il cherchait. Ces deux phénomènes sont bien connus et doivent être pris en compte par l'utilisateur. En pratique, malgré cette limite, les chances de trouver le vocable ne sont pas atteintes de manière significative. En effet, le plus souvent, le mot apparaîtra plus d'une fois dans l'article en sorte que même si une erreur de reconnaissance a été faite concernant la première occurrence du motdans l'article, il y a de grandes chances pour que la reconnaissance fonctionne pour la deuxième occurrence, et l'article apparaîtra dans les résultats de la recherche.
Les erreurs de segmentation constituent le deuxième phénomène auquel l'utilisateur est susceptible de se heurter. Dans ce cas, il sera confronté à deux variantes: la reconnaissance de plusieurs articles comme un seul ou la reconnaissance d'un seul article comme plusieurs. De manière générale, les erreurs de segmentation sont moins graves que les erreurs de reconnaissance de mots dès lors qu'elles n'empêchent pas de trouver les articles correspondant à la notion recherchée mais peuvent, tout au plus, perturber l'ordre des résultats. A cela s'ajoute un certain inconfort résultant de la nécessité de se référer à la page entière du journal afin d'identifier la suite de l'article. Le site 'Presse juive du passé' fait, en règle générale, le maximum d'efforts pour réduire autant que possible les erreurs de reconnaissance et les erreurs de segmentation.
En bref, il faut garder à l'esprit que la recherche dans les journaux est faite dans environnement textuel libre, ce qui signifie que lorsqu'un certain mot ne donne pas de résultats ou en donne peu, il est très probable que sa graphie n'est pas exacte, soit à cause d'une simple erreur d'orthographe, soit parce que le mot était orthographié différemment dans le passé (Sur cette question, voir Sur le contenu).
 

 Statistiques du site

No. de titres:       124
No. de parution: 175,191
No. de pages:     1,668,064
Période:              1783-2014

 Nouveautés du site

  • 22.10.2013, mardi
    Accueil

    Le nouveau site de Presse Juive du Passé offre plus de journaux, il a des capacités de recherche et fonctionnalité améliorées et il est plus convivial qu'avant.

  • 12.05.2013, dimanche
    Le journal Ha-Am a été ajouté au site

    Un nouveau titre a rejoint le site: Ha-Am. Ha-Am, hebdomadaire politico-littéraire publié à Moscou dans les années 1916-1918. Ha-'Aam) le Peuple) est le seul journal hébraïque publiée en Russie pendant la révolution de Octobre 1917. C'est le 37ème journal rajouté au site. L'édition électronique comprend actuellement 1178 pages.