Thèses de Doctorat et Mémoires de Magister

Permanent URI for this communityhttps://dspace.univ-boumerdes.dz/handle/123456789/17

Browse

Search Results

Now showing 1 - 2 of 2
  • Item
    Clustering et apprentissage profond pour la transcription assistée par ordinateur des documents manuscrits
    (Université M'Hamed Bougara Boumerdès : Faculté des Sciences, 2024) Faouci, Soumia; Gaceb, Djamel(Directeur de thèse)
    La reconnaissance automatique ou semi-automatique de l'écriture manuscrite offre des outils de grande importance pour les sociétés qui souhaitent augmenter leur productivité en numérisant facilement leurs documents manuscrits de tout type (administratifs, manuscrits anciens, chèques, adresses postales, ordonnances, etc.), selon un cadre applicatif varié. Actuellement, l'intelligence artificielle rend cette technologie encore meilleure, rapide et efficace, permettant de réduire les coûts et les délais de lecture optique, de transcription, d'interprétation, de catégorisation et de traitement des documents contenant du texte manuscrit. A l'inverse de l'écriture latine, la nature complexe de l'écriture arabe présente encore des grands challenges et difficultés devant le peu de logiciels OCR existants et qui sont limités à des vocabulaires restreints. L'écriture arabe est ligaturée avec des caractères qui sont souvent collés les uns aux autres et des styles très variables. Dans ce cadre, le projet de cette thèse représente une nouvelle contribution au développement de solutions alternatives aux OCR pour une transcription automatique plus adaptées aux documents manuscrits arabes. Les quatre contributions développées dans ce travail de thèse sont basées sur deux types de méthodes : apprentissage automatique et apprentissage profond. La première contribution est fondée sur le développement de plusieurs approches d'apprentissage automatique en utilisant deux classifieurs conventionnels MLP et SVM (non linéaire) avec une sélection optimale et combinaison de plusieurs caractéristiques discriminantes. La seconde contribution est basée sur l'usage de l'apprentissage profond par transferts selon différents niveaux de fine tuning. A ce niveau, une architecture CNN originale et simplifiée a été proposée et plusieurs modèles existants (CNN : MobileNet, DenseNet121, EfficientNet, InceptionV3, ResNet50 et VGG16 ou ViT : convnext-tiny-224) ont été développés, testés et comparés. La troisième contribution est basée la combinaison d'un modèle CNN et un classifieur automatique. Dans ce cadre, différentes combinaisons ont été testées entre les différents modèles CNN et les classifieurs (SVM, KNN et RF). La dernière contribution est destinée au développement d'un système de transcription de texte manuscrit arabe assistée par ordinateur en utilisant le clustering et la recherche des parties de mots arabes (PAW) dans un corpus d'images de documents scannés. A ce stade, deux approches sont développées et testées en utilisant les modèles CNN et les réseaux Siamois et un nouveau dataset des PAW est créée. Les expériences et les comparaisons faites sur différents datasets montrent la pertinence des approches développées et leur supériorité par rapport à la littérature
  • Item
    Recherche d'information guidée par l'image sur des grands corpus de documents scannés
    (Université M'hamad Bougara : Faculté des Sciences, 2021) Benabdelaziz, Ryma; Gaceb, Djamel(Directeur de thèse)
    La numérisation des documents est une tâche essentielle, car elle permet de passer de la version papier traditionnelle à la version numérique moderne. Les images de documents numérisés contiennent des informations sensibles et jouent un rôle important dans la préservation numérique du patrimoine culturel mondial et dans l'archivage des livres et des documents administratifs. La numérisation de documents implique le développement de techniques pour pouvoir exploiter leur contenu visuel à des fins de recherche de documents. Trouver un document nécessite d'abord de trouver ses entités (mots, logos, signatures, etc.), ce qui nécessite une analyse de l'image et de sa représentation dans un espace de caractéristiques visuelles, qui permet de réduire la quantité importante d'informations contenue dans l’image. En général, lorsque le document est de bonne qualité, l'étape de segmentation devient possible et ainsi on peut aisément rechercher et récupérer ses composantes. La plupart du temps, cette tâche est facile et réalisable lorsque le document contient du texte imprimé ; beaucoup de techniques ont été proposées dans ce contexte et qui ont produit des résultats intéressants. Cependant, si l'on veut traiter des documents complexes et de mauvaise qualité tels que les documents manuscrits anciens, il est nécessaire de faire appel à des techniques de représentation robustes et plus fines, car ni la taille, ni le style d'écriture, ni l'espace entre les lettres et les mots ne sont réguliers ou connus par rapport aux images du texte imprimé. Cela nécessite le développement de techniques conventionnelles basées sur les points d'intérêts qui permettent de représenter l’image à travers un ensemble de points pertinents. Cette stratégie de représentation est intéressante lorsque la possibilité de segmentation des documents est impossible. Il y a beaucoup de travaux basés sur ce type de représentation d'images, mais avec des précisions moyennes, et cela est dû aux nombreux paramètres qui doivent être pris en compte lors de la mise en œuvre de ces systèmes de recherche (prétraitement, relations spatiales entre les points, description, etc.). Ce projet de thèse investit dans le développement d'une technique complète de recherche de documents depuis l'extraction des points d'intérêts jusqu'à la mise en correspondance d'images. Notre nouvelle technique a produit des résultats intéressants et se classe parmi les premières en termes de précision par rapport à d'autres travaux dans le même domaine, mais elle reste encore limitée. Afin d'améliorer notre approche, nous avons évolué vers de nouvelles directions dans la représentation d'images en utilisant des techniques d'intelligence artificielle, basées sur le transfert de l'apprentissage profond, qui permettent l'extraction automatique des caractéristiques visuelles. Cette stratégie a donné d'excellents résultats par rapport à de nombreux travaux. Tous nos tests expérimentaux ont été initialement menés sur la base d'un ensemble d'images anciennes de mots manuscrits, et la complexité de cet ensemble nous a permis de développer des techniques puissantes qui peuvent être appliquées à d'autres entités de documents (logos, cachets, signatures, etc.).