Université 08 Mai 1945 Faculté des sciences et d’ingénieries 4ieme Année Ingénieur Informatique
Base de donnée pour la Reconnaissance d’écriture Arabe des chèques Exposé par : Aouadi Zineb Guerui Omar Chiheb Badreddine
11/11/2008
Reconaissance d'écriture arabe manuscrit
Diriger par : A.Bouramoul
1
Introduction Problématique Contribution Etude de cas Conclusion 11/11/2008
Reconaissance d'écriture arabe manuscrit
2
Depuis les origines l‟homme à besoin de communiquer, pour cela il a mis au point des codes, des alphabets et des langages … Alors, Les moyens essentiels pour se communiquer entre les personnes sont : la parole et l'écriture manuscrite. C‟est Quoi L‟écrit? L’écrit : est un moyen naturel de communication entre les individus (échange d'informations)
11/11/2008
Reconaissance d'écriture arabe manuscrit
3
Existe sous différentes formes dans le monde : Synthétique signes Analytique idéogrammes Alphabétique vocabulaire Les formes de l’écrit :
Car-isolés 11/11/2008
Msg manuscrit Reconaissance d'écriture arabe manuscrit
document 4
1-Caractéristiques de l'écriture Arabe Elle est cursive, c'est-à-dire que les lettres sont liées généralement entre elles. Chaque caractère peut prendre quatre formes différentes, suivant sa position dans le mot. Par ailleurs, il existe des lettres différentes qui ont la même forme, mais qui se distinguent par la position et le nombre de points qui leur appartiennent Exp : ث- ت ب
11/11/2008
Reconaissance d'écriture arabe manuscrit
5
Les voyelles „a‟,‟i‟,‟ou‟ sont remplacés par des signes de voyelles. les textes avec les signes de voyelles Exp : Le Coran et les livres d'apprentissage de la lecture et de l'écriture pour les enfants. les textes sans les signes de voyelles Exp : les livres, les journaux, les publications. Le vocabulaire de l‟arabe est plus grand que celui du latin à cause de : Les trois différentes forme : singulier , double et pluriel Exp ألفين ألف أالف
11/11/2008
Reconaissance d'écriture arabe manuscrit
6
Double et pluriel ont jusqu'à 4 formes Exp ألفان ألفي ألفين ألفا Féminin et masculin Exp ثالث ثالثة 2/ Historique de la reconnaissance des mots arabe : Depuis les années 80, la reconnaissance des caractères arabes prend un nouvel essor et fait l'objet d'articles de plus en plus nombreux. Le traitement d‟un chèque comporte :
11/11/2008
Reconaissance d'écriture arabe manuscrit
7
Accéder au compte
vérifier la paye
11/11/2008
vérifiant noms et signatures sur le chèque
vérifier la date du chèque
égaler le montant légal avec le montant de la politesse
Reconaissance d'écriture arabe manuscrit
8
3-Les travaux similaires : Un Système NEURO-FLOU Pour La Reconnaissance de montants numériques de chèques Arabes. Un système Multi-classifieurs pour la reconnaissance des montants littéraux arabes. Une Méthode Rapide de Reconnaissance de l'Écriture Arabe Manuscrite.
11/11/2008
Reconaissance d'écriture arabe manuscrit
9
puisque le vocabulaire d‟arabe est très grande et on peut Trouver une seul mot suivante déferant forme alors il est defficile de réaliser un système de reconnaissance d‟écriture arabe sur le chèque pour cela On veux réaliser un système de reconnaissance des montants. comment réaliser une base de donnée pour la reconnaissance d‟écriture des chèques Arabes ?
11/11/2008
Reconaissance d'écriture arabe manuscrit
10
But: Construire une base de donnée réel pour la reconnaissance d‟écriture des chèques Arabes c‟est pour ça il faut suivre les pas suivants : 1/collection de donnée : A travers la coopération avec Al Rajhi BanKing,les chercheurs peuvent rassembler approximativement 7000 vrai chèque. C’est quoi le rassemblement?
11/11/2008
Reconaissance d'écriture arabe manuscrit
11
Analyser le chèque est extraire toute les informations personnels (nom,numéro de compte,signature…).
2/pre-traitement : La phase de prétraitement a comme objectif de préparer les données pour la reconnaissance, c'est-à-dire sélectionner l‟information utile à l‟application.
11/11/2008
Reconaissance d'écriture arabe manuscrit
12
L’image
11/11/2008
Subit
Traitement
Filtrage
épaississement Du contours
Reconaissance d'écriture arabe manuscrit
13
Reconnaissance Des montants Image brute
Agrégation
Pre-traitement Segmentation Détection des délimiteurs
Reconstitution De montant
Architecture du système 11/11/2008
Reconaissance d'écriture arabe manuscrit
14
3/segmentation : Consiste à :
Découper l‟image en élément susceptible. Analyser les contours et extraire les composantes connexes Réaliser un filtrage sur l‟image. Supprimer les bruits.
11/11/2008
Reconaissance d'écriture arabe manuscrit
15
4/Extraction des caractéristiques :
La phase d‟extraction de caractéristiques doit
être effectuée avec le plus grand soin, car les traitements ultérieurs ne vont plus manipuler l‟image d‟origine mais plutôt les résultats fournis par ce module. Dans ce système ils avaient retenu les caractéristiques suivantes :
11/11/2008
Reconaissance d'écriture arabe manuscrit
16
Image segmenté
11/11/2008
Reconaissance d'écriture arabe manuscrit
17
5/Reconnaissance :
Consiste a reconnaître les chiffres et les sous mots des montants de chèque Arabe. Utilisation des primitives hybrides injectées dans une même machine de classification. Quelque résultats sont représentés dans le shema suivant:
11/11/2008
Reconaissance d'écriture arabe manuscrit
18
Quelques échantillons de la base de données de chiffres 11/11/2008
Reconaissance d'écriture arabe manuscrit
19
6/Ettiquettage : Consiste a donner une étiquette pour chaque sous-mot et pour chaque chiffre par un classifieur sur des modèles de Markov cachés (HMM). deux étiquettes différentes ont été utilisées pour étiqueter des objets qui diffèrent seulement dans leurs composants secondaires (points) . Exp ثالثه ثالثة Deux formes communes pour le mot “cent” Exp مئة مائة
11/11/2008
Reconaissance d'écriture arabe manuscrit
20
Cet outil a produit quatre ensembles d'objets d‟étiquettes: 1. montant de la politesse 2. chiffre indien 3. montant légal 4. sous mot arabe Important ! L‟etiquittage du montant légal se fait indépendamment de l‟equittage du montant de politesse pour éviter les chances d‟erreurs
11/11/2008
Reconaissance d'écriture arabe manuscrit
21
Un échantillon de la base de données du chèque arabe
Montant légal segmenté 11/11/2008
Reconaissance d'écriture arabe manuscrit
22
7/Validation : L‟etiquittage est un outil pour prévenir contre les erreurs,Mais il est possible de trouver quelque erreurs surtout lorsque le montant est très grand, c‟est pour ça il faut vérifier la véracité d‟etiquittage. Il faut compare le montant légal avec le montant de politesse et corriger les erreurs. Chaque étiquette est traduit en sous-mot. Chaque suite de sous-mot est traduit en mot. La séquence de mot est traduit en valeur numérique. 11/11/2008
Reconaissance d'écriture arabe manuscrit
23
Quelque raison pour ne pas approuver L‟etiquittage: Le montant peut être couper lors de l‟extraction et fournir des données inexactes. Le montant peut contenir des fautes d‟orthographe. Il peut y avoir des sous-mot manquants dans le montant original.
11/11/2008
Reconaissance d'écriture arabe manuscrit
24
8/Bases de données résultats:
Cet effort de la recherche a produit plusieurs bases de données : montants légaux arabe (1,547 légal montants) la Politesse monte base de données (1,547 politesse monte écrit dans Indien chiffres) base de données des sous-mots arabe (23,325 sous mots), et base de données des chiffres indienne (9,865) 11/11/2008
Reconaissance d'écriture arabe manuscrit
25
Distribution des classes du sous-mot validées 11/11/2008
Reconaissance d'écriture arabe manuscrit
26
11/11/2008
Reconaissance d'écriture arabe manuscrit
27
L‟objectif de cette recherche est d‟essayer de remplacer l‟employé de la banque par un système pour la reconnaissance d‟écriture arabe manuscrite des chèques pour éviter le problème de saisie. Avantage: On peut utiliser cette base dans d‟autres domaines de recherche Inconvénient: Cette base de données construite seulement a partir des données d‟un seul banque et ne traite pas des chiffres arabe
11/11/2008
Reconaissance d'écriture arabe manuscrit
28
MERCIE POUR VOTRE ATTENTIONS .
11/11/2008
Reconaissance d'écriture arabe manuscrit
29