Doctorat
Permanent URI for this collectionhttps://dspace.univ-boumerdes.dz/handle/123456789/46
Browse
Item Clustering et apprentissage profond pour la transcription assistée par ordinateur des documents manuscrits(Université M'Hamed Bougara Boumerdès : Faculté des Sciences, 2024) Faouci, Soumia; Gaceb, Djamel(Directeur de thèse)La reconnaissance automatique ou semi-automatique de l'écriture manuscrite offre des outils de grande importance pour les sociétés qui souhaitent augmenter leur productivité en numérisant facilement leurs documents manuscrits de tout type (administratifs, manuscrits anciens, chèques, adresses postales, ordonnances, etc.), selon un cadre applicatif varié. Actuellement, l'intelligence artificielle rend cette technologie encore meilleure, rapide et efficace, permettant de réduire les coûts et les délais de lecture optique, de transcription, d'interprétation, de catégorisation et de traitement des documents contenant du texte manuscrit. A l'inverse de l'écriture latine, la nature complexe de l'écriture arabe présente encore des grands challenges et difficultés devant le peu de logiciels OCR existants et qui sont limités à des vocabulaires restreints. L'écriture arabe est ligaturée avec des caractères qui sont souvent collés les uns aux autres et des styles très variables. Dans ce cadre, le projet de cette thèse représente une nouvelle contribution au développement de solutions alternatives aux OCR pour une transcription automatique plus adaptées aux documents manuscrits arabes. Les quatre contributions développées dans ce travail de thèse sont basées sur deux types de méthodes : apprentissage automatique et apprentissage profond. La première contribution est fondée sur le développement de plusieurs approches d'apprentissage automatique en utilisant deux classifieurs conventionnels MLP et SVM (non linéaire) avec une sélection optimale et combinaison de plusieurs caractéristiques discriminantes. La seconde contribution est basée sur l'usage de l'apprentissage profond par transferts selon différents niveaux de fine tuning. A ce niveau, une architecture CNN originale et simplifiée a été proposée et plusieurs modèles existants (CNN : MobileNet, DenseNet121, EfficientNet, InceptionV3, ResNet50 et VGG16 ou ViT : convnext-tiny-224) ont été développés, testés et comparés. La troisième contribution est basée la combinaison d'un modèle CNN et un classifieur automatique. Dans ce cadre, différentes combinaisons ont été testées entre les différents modèles CNN et les classifieurs (SVM, KNN et RF). La dernière contribution est destinée au développement d'un système de transcription de texte manuscrit arabe assistée par ordinateur en utilisant le clustering et la recherche des parties de mots arabes (PAW) dans un corpus d'images de documents scannés. A ce stade, deux approches sont développées et testées en utilisant les modèles CNN et les réseaux Siamois et un nouveau dataset des PAW est créée. Les expériences et les comparaisons faites sur différents datasets montrent la pertinence des approches développées et leur supériorité par rapport à la littératureItem Le problème de classification automatique de données : approches mono et multi-objectif(Université M'hamad Bougara : Faculté des Sciences, 2021) Boudane, Fatima; Berrichi, Ali( Directeur de thèse)Le clustering est l’une des tâches les plus importantes et les plus étudiées en data mining. Bien que beaucoup d’algorithmes de clustering aient été proposés dans la littérature de recherche, la plupart d'entre eux ne peuvent pas traiter correctement des ensembles de données ayant des clusters de formes arbitraires et de densité variable. De plus, les plus connus des algorithmes dépendent des paramètres utilisateur qui sont difficiles à définir. Dans le cadre de cette thèse, nous considérons le problème de clustering traitant des ensembles de données avec un nombre inconnu de clusters, ayant des formes arbitraires, présentant des variations de densité et contenant des outliers. Notre motivation principale est de proposer de nouvelles approches permettant d’automatiser le processus de clustering en considérant des ensembles de données possédant toutes ces spécifications. Pour répondre à ces exigences, nous avons proposé, tout d’abord, un nouvel indice de validation du clustering basé sur la connectivité et la densité (CDBCVI), qui permet de faire face au cas de clusters de formes arbitraires et de différentes densités. Il facilite ainsi l'évaluation des algorithmes de clustering et la sélection de leurs paramètres appropriés. Ce nouvel indice est basé sur les relations de densité et de connectivité entre les objets de données, extraites sur la base du graphe de proximité de Gabriel. L'incorporation des relations de connectivité et de densité permet d'obtenir de bons résultats de clustering dans le cas de clusters de n'importe quelle forme, taille ou densité. Par la suite, nous avons proposé trois approches de clustering mono- et multi-objectif qui permettent d’automatiser le processus de clustering et d’améliorer la qualité de ses résultats. Ces approches utilisent un schéma de codage de solutions basé sur la densité, inspiré des algorithmes basés sur la densité NBC (Neighborhood-Based Clustering) et DBSCAN (Density Based Spatial Clustering of Applications with Noise) qui sont très efficaces dans le cas de clusters ayant des formes arbitraires et des densités différentes. La première approche consiste à utiliser la métaheuristique de recherche par voisinage variable (Variable Neighborhood Search (VNS)), afin de remédier à la difficulté du choix de la valeur du paramètre unique de l’algorithme NBC et améliorer ses résultats. La deuxième approche consiste à utiliser l’algorithme de colonie d’abeilles artificielles (Artificiel Bee Colonies (ABC)) afin d’automatiser et améliorer la qualité du clustering de l’algorithme NBC. Quant à la troisième approche, elle consiste à utiliser l’algorithme ABC afin d’automatiser et améliorer la qualité du clustering en s’inspirant de la procédure d’expansion de clusters de l’algorithme DBSCAN. Pour améliorer le processus d'évaluation des solutions de clustering au cours des itérations, nous avons défini plusieurs fonctions objectif basées sur des concepts de densité, vu que la prise en compte d'une seule fonction objectif peut ne pas être conforme aux ensembles de données ayant des clusters de formes complexes et des outliers. Nous avons testé la performance des approches proposées par une expérimentation approfondie sur des ensembles de données réels et synthétiques. Les résultats expérimentaux démontrent l’efficacité et la supériorité des approches proposées par rapport à plusieurs d’autres approches de la littérature
