Mohamed mediouni (Ecole Nationale d’Ingénieurs de Tunis (ENIT)). (
[email protected]) Téléphone : +21622582534
Compréhension du langage naturel
|
COMPREHENSION DU LANGAGE NATUREL
Plan Avant propos & Historique Définition de l’IA Introduction Définitions : Langage Langage Naturel
Traitement automatique du langage naturel I°) Définition du TALN II°) Les différentes phases du TALN : 1°) Analyse Morphologique 2°) Analyse Syntaxique 3°) Analyse Sémantique 4°) Analyse Pragmatique
III°) Etude de cas
Quelques exemples d’applications du TALN : 1°) Reconnaissance et synthèse de la parole 2°) Traduction automatique 3°) Recherche d’informations
2
COMPREHENSION DU LANGAGE NATUREL 4°) Correction d’orthographe
Avantages Inconvénients Quelques visions futuristes Conclusion Annexe Webographie & Bibliographie
3
COMPREHENSION DU LANGAGE NATUREL
Avant propos & Historique
L
e rêve d'une machine intelligente remonte à l'Antiquité. En effet, dans l'Iliade (chant XVIII), le Dieu du Feu Héphaïstos avait construit des tables à trois pieds pour le servir. Au XVIe siècle, à partir des progrès de la médecine (lois de fonctionnement de certains organes), et du perfectionnement des automates, on pense pouvoir créer des mécanismes "intelligents". Au XVIIe, Descartes introduit l'idée de l'"animal machine", qui aurait certaines activités humaines, mais pas toute l'intelligence. Au XVIIIe siècle, Vaucanson est célèbre par ses automates : joueur de flûte (1737), canard (1738). On pense qu'il n'y a pas de limite… En 1747, la Mettrie publie "L'homme machine". Il a l'intuition que la distinction homme/animal de Descartes ne tient pas, mais ne sait pas comment expliquer le comportement de l'homme. Fin du XVIIIe siècle, un anonyme publie une description d'une méthode automatique pour composer des menuets. Il a défini un ensemble de règles. Il n'avait bien sûr pas d'ordinateur, mais a fait des simulations, avec des lancements de dés pour introduire de la variété. En 1769, c'est l'escroquerie du joueur d'échecs : l'automate de Kempelen; il y avait un joueur de petite taille dans le coffre. En 1912, Torrès y Quevedo réalise un automate pour jouer les finales R + T contre R par une méthode qui permet de gagner contre toute défense. En 1930, Gödel, Church, Herbrand, Türing étudient la possibilité d'automatiser le calcul et le raisonnement. C’était en 1943 qu’on a commencé à développer les premiers ordinateurs. En 1945, Zuse, un des pères des premiers ordinateurs, programme les règles du jeu d'échecs. D’ailleurs, l’Homme pensait de traduire ses documents en diverses langues, l’exemple le plus célèbre était celui des russes qui ont voulu faire une traduction automatique de la langue russe vers l'anglais et vice-versa lors de la deuxième guerre mondiale, et surtout le besoin de rédiger des dictionnaires bilingues. En 1949, Shannon, promoteur de la théorie de l'information, propose une méthode pour jouer aux échecs et en 1950, Turing, un des premiers informaticiens, l'affine et le simule à la main. Depuis lors, commencent les premiers programmes d’I.A. En 1954, Newel a un projet de programme d'échecs. Il travaille avec Show, Simon et des Psychologues. Ceci aboutit à la création d'un langage pour manipuler des informations symboliques : IPL1 (1956), père de LISP (MacCarthy 1960). La pensée de l’Homme s’est orientée par la suite au développement d’applications complexes telles que la démonstration automatique des théorèmes mathématiques, c’était le LOGIC THEORIST conçu en 1956. En 1957, le programme d'échecs NSS a la même structure que LOGIC THEORIST. On a les notions de situation souhaitable, d'heuristique (règle qui permet de faire un choix en l'absence de résultat théorique sûr). Puis GPS, "General Problem Solver", est général et est caractérisé par l'analyse de différences entre situations et la construction de buts et sous-buts.
4
COMPREHENSION DU LANGAGE NATUREL Vers l’année 1958, Newel et Simon pensent qu'avant 1968, un programme sera champion d'échecs et démontrera un important théorème mathématique! Dans cette année, on a réussi à développer un programme intelligent en jeu d’échec apte de concourir Kasparov. Pourtant, Kasparov n’a été battu qu’en 1997 par le fameux Deep Blue!
VS Kasparov
Deep-Blue
La véritable phase de réalisation pratique débutait vers 1959 lorsque Samuel réalisait un programme qui joue aux checkers (dames américaines) et "apprend" (coefficients ajustés avec l'expérience). En 1960, Gelertner réalisait un programme qui démontre des théorèmes de géométrie, par exemple: Un triangle qui a deux angles égaux, a aussi deux cotés égaux. (Le programme en donne une meilleure démonstration que celle habituellement enseignée). Ce programme est capable d'utiliser (provisoirement ou non) un raisonnement non rigoureux. Il utilise les symétries logiques d'un problème. L’année suivante (1961), on s'intéressait au traitement du langage avec une application sur la recherche d'informations dans des bases de données. BASEBALL (Green) répond à des questions sur les matches. On pense pouvoir faire de la traduction automatique, par analyse syntaxique et des dictionnaires, mais cela ne suffit pas! Mais, en 1965, la Méthode de Résolution (Robinson) est utilisée en Démonstration automatique de théorèmes (Slagle - Green - Kowalski), en Vérification de programmes (King -Waldinger), en Manipulation d'objets (Nilson - Fikes). Cette méthode a donné naissance au langage PROLOG (Colmerauer 1971). En 1967, le premier programme d'échecs ayant des performances satisfaisantes est dû à Greenblatt. Il bat un joueur normal. Ainsi, avant 1970, toutes les machines fonctionnent automatiquement, leurs tâches étaient limitées à l’exécution des programmes et des algorithmes que propose l’Homme. Depuis lors, on a commencé à réfléchir de développer « des machines intelligentes » permettant de simuler le comportement humain et d’imiter ses attitudes.
5
COMPREHENSION DU LANGAGE NATUREL On a construit un système intelligent qui joue le rôle d’un psychiatre et qui dialogue en anglais : c’est Eliza. A partir de 1970, on a introduit un nouveau concept : C’est l’Intelligence Artificielle (I.A) ayant pour objectifs de diagnostiquer, planifier des opérations chirurgicales, programmer des jeux complexes tels que les puzzles, jeux de dames, démonstration mathématiques des théorèmes les plus durs,… etc Malgré la multitude des définitions, on n’est pas parvenu jusqu’à présent de donner une définition explicite et finaliste de l’IA. Qu'appelle-t-on donc Intelligence Artificielle?
Définition de l'I.A. Selon Turing : C’est ce qui rend difficile la distinction entre une tâche réalisée par un être humain ou par une machine. D’après Darwin : C’est ce qui permet la survie de l’individu le plus apte. Edison a définit l’intelligence artificielle comme suit : C’est ce qui fait que cela fonctionne et produit plus de revues dans l’entreprise. Selon J.L.Laurière: « Etude des activités intellectuelles de l'homme pour lesquelles aucune méthode n'est a priori connue. (Tout ce qui n'a pas encore été fait en Informatique, quand on sait le faire, ce n'est plus de l'IA...) » Tandis que Lorenz voit que c’est un collectif et cela émerge du comportement collectif. Néanmoins, malgré la diversité de ces définitions, la plupart d'entre eux adhèrent à l'idée que l'IA est une science dont le but est de concevoir des machines "intelligentes" ayant un comportement proche de l'être humain dans ses pensées, ses attitudes et son comportement. Ces machines sont donc privilégiées par des capacités de raisonnement, de déduction et de résolution des problèmes de grande complexité.
6
COMPREHENSION DU LANGAGE NATUREL
D
Introduction
'après ce qui précède, on en déduit l'importance de l'intelligence artificielle dans notre vie quotidienne et dans le domaine de l'informatique en général. Certes, l'IA renferme divers filières tels que la robotique, les réseaux de neurones, les systèmes experts, la compréhension du langage naturel, la reconnaissance de formes, l'apprentissage automatique, l’interaction Homme/machine, modélisation cognitive, les systèmes multiagents, la vision informatique, la CFAO (Conception et Fabrication Assistée par Ordinateur)…
Robotique
Reconnaissance de formes
Réseaux de neurones
Langage Naturel Apprentissage automatique
Systèmes experts
L'intelligence Artificielle Figure 1 : Domaines de l’IA
7
Agents intelligents
COMPREHENSION DU LANGAGE NATUREL Pourtant, malgré la multitude de ces domaines, leurs importances dans les études de l’IA varient. En effet :
100 %
. . 70 %
. . 20 %
10 %
4% 2%
Langage Naturel
Les Systèmes experts
. .
Reconnaissance Vocale
Robotique
Reconnaissance de formes
Domaine
0%
Figure 2 : Diversité des importances des domaines de l’IA L’interface entre l’homme et la machine se fait le plus souvent par l’intermédiaire de codes et de langages propres à l’informatique qu’il faut assimiler pour que l’ordinateur nous comprenne. Au lieu d’apprendre le langage de la machine, pourquoi ne pas apprendre à la machine notre langage, le
langage naturel ? Cet apprentissage nécessite la compréhension du langage naturel. Comme vous voyez dans la figure précédente, le langage naturel, tout seul, joue un rôle crucial dans les domaines de l’I.A : il représente 20% des domaines de recherche de l’IA. En outre, l’interface personne/machine ne cesse plus d’évoluer au cours du temps, ce qui nécessite plus de communication, plus de discussion entre l’Homme et le machine. Or, réussir une communication entre deux interlocuteurs revient à les rapprocher et les réunir via un langage compréhensible par les deux membres. D’où la nécessité de faire comprendre notre langage naturel à la machine. Mais, ceci n’est pas facile à manipuler sur le côté pratique surtout que le langage naturel est très complexe..On a donc intérêt de mettre l’accent sur tel domaine. Qu’appelle-t-on donc langage naturel ? Et quels sont ses phases de son analyse ?
8
COMPREHENSION DU LANGAGE NATUREL
Définition d’un langage
S
elon Hegel, « on croit ordinairement *…+ que ce qu'il y a de plus haut c'est l'ineffable… Mais c'est là une opinion superficielle et sans fondement ; car en réalité l'ineffable c'est la pensée obscure, la pensée à l'état de fermentation, et qui ne devient claire que lorsqu'elle trouve le mot. Ainsi, le mot donne à la pensée son existence la plus haute et la plus vraie. » Il ajoute ailleurs : «C'est dans les mots que nous pensons.» En essai de définition, un langage est un moyen de communication entre deux ou plusieurs interlocuteurs (être vivant vs machine, machine vs machine, être vivant vs être vivant). On distingue divers types de langages tels que le langage humain, le langage animal, le langage informatique,… Essayons donc de définir le langage naturel : C’est une langue normale parlée par un être humain, c’est-à-dire l’ensemble des moyens de communication entre des êtres humains pour exprimer librement leurs idées sans obéir aux contraintes de lexique et de syntaxe. L’ordinateur ne comprend que le langage machine (langage binaire) pour lequel il a été conçu, ce sont des langages qui obéissent à des lois et des syntaxes prédéfinies tels que les langages de programmation et les langages formels… Remarque :
Quelle différence y’a-t-il entre langage naturel et langage humain ? Selon Wikipédia, on définit ces deux termes comme suit : Un langage naturel est une langue « normale » parlée par un être humain. Le langage humain est la faculté de mettre en œuvre un système de signes linguistique (qui constituent la langue) permettant la communication et l'expression de la pensée, ce qui est privatif des humains, et des sentiments, ce qui est commun aux animaux. La linguistique est l'étude scientifique du langage. Or, notre thème est basé sur la compréhension du langage naturel ; pour cela, on doit adopter des techniques d’analyse et des modèles qui sont principalement résumés dans le TALN (Traitement Automatique du Langage Naturel).
NB: Toutes nos études dans ce thème seront limitées à la langue française pour faciliter la tâche ainsi que la compréhension des exemples traités. On peut également reproduire le même travail avec les autres langues.
9
COMPREHENSION DU LANGAGE NATUREL
Traitement Automatique du Langage Naturel I°) Définition : Le Traitement automatique du langage naturel (abréviation TALN) est une discipline à la frontière de la linguistique, de l’informatique et de l’intelligence artificielle, qui concerne l'application de programmes et techniques informatiques à tous les aspects du langage humain. [Wikipédia] En récapitulant, le TALN est une discipline basée sur des techniques ayant pour objectifs de rendre les machines capables de recevoir, analyser et comprendre les requêtes envoyées par l’Homme en langage naturel et de produire des messages (réponses) en langage humain.
Requête en langage naturel
Réception de la requête Réponse en langage naturel
Analyses Compréhension
Figure 3 : Interaction Homme / Machine
10
COMPREHENSION DU LANGAGE NATUREL Le TALN est effectué en suivant un ordre logique de traitement basé sur les quatre étapes suivantes :
Analyse Morphologique Analyse Syntaxique Analyse Sémantique Analyse Pragmatique
II°) Les différentes phases du TALN : 1°) Analyse Morphologique :
L
ors de la communication en langage naturel entre l’Homme et la machine, les interrogations humaines seront automatiquement converties en texte qui n’est que l’association d’un ou plusieurs mots. Pour cela, la machine doit débuter par distinguer quels sont les mots constitutifs du texte en adoptant comme prédéfinis un ensemble de séparateurs (caractères superflus à éliminer) tels que l’espace et les signes de ponctuation. La machine doit donc découper le texte en plusieurs mots (lexèmes) : C’est l’analyse lexicale. Selon Molino (1985) : le mot est "une unité complexe, difficile à définir selon des critères universels, mais une unité réelle". Un mot n’est qu’un ensemble de caractères ayant un sens ou non qui constituent un segment dans une phrase. Tandis que Martinet (1967) voit que le mot est "un syntagme autonome formé de morphèmes non séparables". Pourtant, le mot n'est pas une unité de base minimale de l'analyse linguistique. Il existe des unités significatives plus petites que le mot : les morphèmes. Un morphème est une unité significative minimale. Un mot peut être formé de plusieurs morphèmes. Le linguiste français André Martinet utilise le terme de 'monème' (au sens où est employé ici le terme de 'morphème'). Pour cela, on a intérêt à étudier l’analyse morphologique au lieu de l’analyse lexicale qui est une sous-branche de la morphologie. On peut distinguer les morphèmes grammaticaux (appelés parfois grammèmes) qui est constituée de morphèmes flexionnels et des morphèmes dérivationnels, et les morphèmes lexicaux (= lexèmes) formés de dérivation et de composition.
11
COMPREHENSION DU LANGAGE NATUREL
Morphèmes
Morphèmes Grammaticaux
Morphèmes Dérivationnels
Morphèmes Flexionnels
Morphèmes Lexicaux
Morphèmes Dérivationnels
Morphèmes de Composition
Figure 4 : Les divers Types de Morphèmes
A) Les morphèmes grammaticaux : Ce sont des mots qui mettent l’accent sur le Temps, le Mode, la Personne, le Genre, le Nombre...
a) Les morphèmes Flexionnels : Ce type de morphèmes ne modifie pas le sens des mots (ou le référent) auquel il s’adjoint, ni sa catégorie syntaxique dans le discours. Par exemple, le passage du singulier vers le pluriel ou inversement, du masculin au féminin et vice versa, ainsi que la conjugaison des verbes… Exemples : Poule / Poules vert /verte mange/mangea/mangeait …
b) Les morphèmes dérivationnels : Les morphèmes dérivationnels modifient le sens (et le référent) du lexème auquel ils s’adjoignent, et peuvent également modifier sa catégorie syntaxique (partie du discours). Exemples : épice / épicier / épicerie bavard / bavarder / bavardage
c) Les morphèmes compositionnels : En fait, c’est la composition de plusieurs morphèmes pour en former un nouveau.
12
COMPREHENSION DU LANGAGE NATUREL Exemple : in + acceptable inacceptable.
B) Les morphèmes lexicaux : a) Les morphèmes de dérivation (ou dérivationnels) : Les morphèmes dérivationnels, à la différence des morphèmes flexionnels, permettent donc de
fabriquer de nouveaux mots (unités lexicales) à partir des mots existants. Le procédé qui consiste à former un nouveau mot par l’ajout d’un morphème dérivationnel à un mot existant s’appelle « dérivation ». L’unité lexicale ainsi obtenue est un mot dérivé. Par exemple, Épicier est un mot dérivé, obtenu par dérivation à partir du mot épice.
b) Les morphèmes de composition : Il existe un autre procédé morphologique de fabrication de nouveaux mots à partir de mots déjà existants : la composition, qui consiste à combiner plusieurs lexèmes. Le mot ainsi obtenu est un mot composé.
* Mode de fonctionnement de l’analyseur morphologique: Initialement, la machine décompose le texte en des mots (analyse lexicale) selon des séparateurs prédéfinis, puis, identifier chaque mot en un ou plusieurs morphèmes. Ceci servirait plus tard dans l’analyse sémantique car, l’analyseur lexical permet de connaître les types de mots : déterminant, adjectif, verbe, nom, opérateur,… EXEMPLES : Le
conducteur circulait lentement.
Identification des mots de la phrase, leurs types et leurs morphèmes :
Lexème (mot)
Type du mot :
Morphèmes :
Le Conducteur Circulait lentement .
déterminant nom verbe adverbe opérateur
le conduc - teur circul - ait lent – e - ment .
Cependant, l’analyse morphologique est généralement insuffisante à cause des ambiguïtés tel est le cas suivant : La fille danse avec ses amies. Ici, l’analyseur morphologique se trouve en ambiguïté pour identifier le type du mot danse (soit un verbe, soit un nom). D’où, la nécessité d’une autre analyse plus profonde qui étudiera la nature des mots suivant une grammaire précise : C’est le rôle de l’analyse syntaxique.
13
COMPREHENSION DU LANGAGE NATUREL
2°) Analyse Syntaxique :
D
ans cette étape, on va étudier la structure des phrases résultantes de l’analyse morphologique.
Il s’agit donc d’étudier la structure générale d’une phrase suivant une grammaire particulière Une phrase est syntaxiquement correcte si et seulement si elle peut être obtenue par une ou plusieurs dérivations des règles de production de la grammaire, d’où, l’obtention de l’arbre de l’analyse syntaxique. Exemple : La
belle fille mange du gâteau.
Vérifions alors si cette phrase est syntaxiquement correcte ou non selon la grammaire du langage naturel ?
PH
GN
GN
GV
Dét
Adj
N
V
Dét
N
La
belle
fille
mange
du
gâteau
Figure 5 : Arbre d’analyse syntaxique Pour construire l’arbre d’analyse (ou l’arbre de dérivation) d’une phrase, deux approches (méthodes) sont possibles : Une méthode descendante : Comme son nom l’indique, elle vise à analyser l’arbre (en langage naturel) du haut vers le bas : Il faut commencer par calculer les
14
COMPREHENSION DU LANGAGE NATUREL ensembles PREMIER et SUIVANT en respectant des algorithmes prédéfinis. Ensuite, on en déduira la table d’analyse de notre chaîne de caractères. Malheureusement, cette méthode demeure inefficace avec la grammaire des langages naturels car, cette dernière comporte plusieurs productions pour le même mot, ce qui donnera un conflit (ambiguïté) au niveau de la table d’analyse ou bien la grammaire n’est pas factorisée à gauche ou encore récursive à gauche. Pourtant, cette méthode descendante est encore valable et donne des résultats corrects avec des grammaires LL(1) dont la table d’analyse est définie de façon unique. Une méthode ascendante : Son principe vient de l’idée qu’il est possible de construire un arbre de dérivation du bas (les feuilles, c’est-à-dire les unités lexicales) vers le haut (la racine). Le modèle général adopté est le modèle en décalages (shift) – réduction (reduce). On procède par déterminer l’ensemble des items de la grammaire du langage naturel, construire ensuite la table d’analyse puis, en déduire son arbre de dérivation. Bref, le rôle de l’analyseur syntaxique est fondamental car, plusieurs erreurs sont par nature syntaxique (ou révélées lorsque les unités lexicales provenant de l’analyseur morphologique contredisent les règles grammaticales). Le gestionnaire d’erreurs doit donc : Indiquer la présence de l’erreur de façon claire et précise. Traiter l’erreur le plus rapidement que possible afin d’achever aisément l’analyse. Traiter l’erreur le plus efficacement que possible pour ne pas en créer d’autres. En général, on distingue quatre modes de récupération sur les erreurs :
Récupération en mode panique Récupération au niveau du syntagme Récupération par production d’erreurs Récupération par correction globale
Ces modèles utilisent des grammaires qui ne sont pas adaptées au formalisme plus complexe utilisé en traitement des langages naturels. Pour cela, plusieurs grammaires apparaissent pour résoudre ce problème, et surtout la grammaire des arbres adjoints.
* Grammaire des arbres adjoints : Cette grammaire est essentiellement un lexique où chaque lemme est associé à un ensemble d'arbres. Ces arbres, appelés arbres élémentaires, sont manipulables par deux opérations : la substitution et l'adjonction.
L’adjonction: Elle opère sur des arbres appelés auxiliaires et qui correspond à l'insertion d'un arbre spécifique au sein d'un arbre élémentaire (indifféremment initial ou auxiliaire).
15
COMPREHENSION DU LANGAGE NATUREL Figure 6 : Procédé d’Adjonction des grammaires des arbres adjoints La substitution: Contrairement à l’adjonction, elle opère sur un ensemble restreint d'arbres appelés arbres initiaux et correspond à une dérivation hors-contexte. Cette opération est obligatoire.
Figure 7 : Procédé de substitution des grammaires des arbres adjoints Les relations syntaxiques entre les mots d’une phrase peuvent être modélisés par divers manières, on distingue surtout le modèle en constituants et le modèle en dépendance.
a) Modèle en constituants : Ce modèle est basé sur la réduction des syntagmes du texte, au lieu de séparer chaque mot à part, on sépare des groupes de mots centrés chacun sur un mot particulier. Au lieu de séparer par exemple le nom de son déterminant, on peut qualifier ce groupe par SN (Syntagme Nominal). Exemple : Le climat est beau. L’arbre de constituants correspondante est la suivante :
PHRASE
Syntagme Nominal
Déterminant
Syntagme Verbal
Nom
climat
Le
Verbe (d’état)
est
Adjectif (attribut de sujet)
beau
Figure 8 : Exemple d’une phrase présentée sous le modèle en constituants
16
COMPREHENSION DU LANGAGE NATUREL
«Bloomfield» a lancé l’expression des constituants immédiats (immediats constituents). Il ne suffit pas de connaître les constituants fondamentaux de la phrase (Le, climat, est, beau) mais, il fallait mieux savoir les constituants immédiats de la phrase (Le climat, est beau).
Le climat est beau Le climat Le
est beau
climat
est
beau
Les deux constituants
Les deux constituants
immédiats de «Le climat»
immédiats de «est beau»
b) Modèle en dépendance : Ce modèle joue sur les mots centraux du texte, essaie de combiner les autres mots qui en dépendent pour former l’arbre de dépendance correspondant. Reprenons le même exemple que précédemment :
PHRASE
est
climat
Le
17
beau
COMPREHENSION DU LANGAGE NATUREL Figure 9 : Exemple d’une phrase présentée sous le modèle en dépendance Certes, comme on vient de le signaler précédemment, le déterminant «le» est directement rattaché à son nom «climat». «Climat» et «beau» sont tous les deux centralisés sur le verbe «est». Cependant, l’analyse syntaxique demeure dans certains cas insuffisante; Il est possible de donner des phrases qui respectent toutes les règles de la grammaire du langage naturel mais, qui n’ont pas de sens ou bien leur sens ne correspond pas à une vérité ou un acte logique. Par exemple, la phrase suivante est syntaxiquement correcte mais, sémantiquement fausse :
La voiture regarde la fille. On en déduit donc la nécessité d’un autre analyseur qui s’intéressera au sens du texte : C’est l’analyseur sémantique.
3°) Analyse Sémantique :
L
’objectif de l’analyse sémantique est l’étude de la signification des mots. Il n’y a pas vraiment de méthode universelle particulière pour effectuer l’analyse sémantique car, cette phase est vraiment complexe ! Exemple : Le mot «langue» peut prendre plus qu’un sens : C’est un système de signes linguistiques, vocaux, graphiques ou gestuels, qui permet la communication entre les individus. C’est un organe situé dans la cavité buccale qui sert à la mastication, à la phonation et à la déglutition. C'est aussi l'organe du goût. Si on trouve tel mot dans un texte, quel sens la machine doit elle lui donner ? Comment la machine parvient-elle à sélectionner correctement le bon sens du mot ? En résumé, l’analyse sémantique n’est qu’une représentation logique du sens. Cette représentation s’effectue à l’aide de divers formalismes, principalement les prédicats et les graphes conceptuels. Dans notre travail, on se limitera à l’étude de ces deux derniers formalismes. Pourtant, il existe d’autre formalismes qu’on ne va pas étudier tels que les réseaux sémantiques et les représentations par cadre (frames). Il existe en plus plusieurs méthodes d’analyse sémantique tels que l’analyse profonde par compositionnalité, l’interprétation sémantique des relations grammaticales, les grammaires sémantiques et les patrons sémantiques (matching patterns). Le point de départ de l’analyse sémantique est l’ensemble des structures syntaxiques obtenues dans la seconde phase d’analyse, son but essentiel est la production de structures formelles directement rattachés au sens des mots du texte. Débutons alors par étudier le Modèle des Représentations à l’aide des prédicats:
18
COMPREHENSION DU LANGAGE NATUREL
** Modèle des Représentations à l’aide des prédicats : Une formule logique, grâce à un langage formel connu, possède une syntaxe simple et dénuée d’ambiguïté. Elle offre la possibilité de: Présenter un énoncé : Je ne te hais point.
Attribuer des valeurs de vérité binaire à une expression donnée : Président (Obama) est vrai si et seulement si Obama est un Président.
Raisonner sur des connaissances et des énoncés :
Mais, la logique des prédicats du premier ordre est loin de pouvoir traiter tous les phénomènes des énoncés en langage naturel, dont le sens ne se limitent pas à leur seule valeur de vérité. Au-delà, pour certains aspects du langage naturel, la formalisation devient très complexe, voire impossible sans recourir à d’autres types de logique (logique floue, logique modale, concept de proposition exprimée, …) Par exemples : La modalité («il est possible / probable / nécessaire que / …») Le temps (« Président (Sarkozy) » n’est vraie qu’à un moment donné de l’histoire) Les souhaits («j’espère que vous viendrez») Les concepts flous («Paul est jeune», «Beaucoup pensent que …») L’impératif (« fais ce que je te dis ! ») Comme vous le constatez, le modèle logique des prédicats n’est pas complet car, il est inefficace devant certaines ambiguïtés sémantiques. Plusieurs techniques et méthodes furent élaborées pour résoudre ce problème, le modèle conceptuel de graphes était le modèle le plus répandu car, très évolué et pratique, ce modèle a pu résoudre divers problèmes sémantiques et a par conséquent facilité la tâche. Pour cela, il est indispensable de l’étudier.
** Modèle des Graphes Conceptuels : En essai de définition, un graphe conceptuel est une représentation symbolique, c’est-à-dire un «langage» de représentation des connaissances basé sur la linguistique, la psychologie et la philosophie. Il a été conçu dans le but de développer un système de logique permettant de représenter de façon plus simple et plus commode le langage naturel afin que la machine puisse appréhender sa sémantique. «Le modèle des graphes conceptuels est un modèle de représentation de connaissances du
type réseaux sémantiques qui a donné lieu à un certain nombre de travaux depuis son introduction par John F. Sowa en 1984.
19
COMPREHENSION DU LANGAGE NATUREL L'une des particularités de ce modèle est de permettre de représenter des connaissances sous forme graphique. Un graphe conceptuel est un graphe biparti étiqueté, les deux classes de sommets étant étiquetés respectivement par des noms de « concepts » et des noms de « relations conceptuelles » entre ces concepts. Une telle représentation graphique des connaissances permet à des utilisateurs de comprendre, créer ou modifier directement des objets de ce type, de façon beaucoup plus simple (en comparaison avec une représentation sous forme de formules logiques).» [UE102 (M1.IST-IE) : S. Sidhom] Cette théorie serait donc un modèle de référence et un langage universel (normalisé) pour le traitement des connaissances pour tous les systèmes intelligents existants, et surtout, pour le but de développer des applications confidentes aptes de traiter la sémantique du langage naturel pour qu’il soit aisément compréhensible par la machine. Cette théorie a évolué pour devenir un système complet au sens de la logique.
a) Architecture du MGC : Ce graphe est fondé sur deux catégories de nœuds : Les nœuds concepts qui représentent des entités, des attributs, des états, des événements... (symbolisés par des rectangles). Les nœuds relations conceptuelles qui symbolisent les liens qui existent entre deux concepts (symbolisés par des cercles). Ainsi, l’architecture des nœuds est de la forme :
Concept
Relation Conceptuelle
Arc Entrant
Concept
Arc Sortant
Définition d’un concept : Mr M. Lyon a défini le concept comme: « toute idée, toute pensée, ou toute construction mentale au moyen de laquelle l’esprit appréhende les choses ou parvient à les reconnaître ». M. Rastier évoque le concept en ces termes : Au premier niveau, le concept est une forme de la pensée humaine qui permet de dégager les caractères généraux essentiels des choses et des phénomènes de la réalité objective ou plus simple, une représentation mentale, générale et abstraite d'un objet. Ce concept-là, philosophique et logique, est posé sans aucun rapport nécessaire avec les langues ni avec les systèmes de signes.
20
COMPREHENSION DU LANGAGE NATUREL Au deuxième niveau, le concept est un universel de représentation qui appartient au langage. Au troisième niveau, le concept est tout simplement le signifié d'un morphème d'une langue. En outre, les concepts obéissent à la notation suivante : [
: < Référent>] Par exemples, [Personne : Etudiant] étudiant est une catégorie des personnes. [Voiture : Ferrari] Ferrari est une catégorie des voitures. [Homme : Mohamed] Mohamed est une catégorie des êtres humains.
Hiérarchie des concepts : Le MGC permet soit de généraliser, soit de spécialiser. Certes, le mot «armoire» par exemple, est une spécification du mot «meuble», ce dernier est donc une généralisation du mot «armoire». Mr SOWA a organisé la hiérarchie des concepts en incorporant deux types basiques particuliers dans le treillis (arbre) des concepts comme suit: Le type universel : UNIV est le sur-type de tous les types de concepts Le type absurde : noté ABSURD, est le sous type de tous les types de concepts Ainsi, tout graphe conceptuel obéit à la loi suivante :
T un type de concepts, on ait : ABSURD < …. < T < ….
UNIV …....
Objet
Verbe
….. Personne …. enseignant .
étudiant
Pays
….. manger
Voiture Canada
ABSURD Figure 10 : Exemple de treillis de types de concepts Représentation des relations conceptuelles :
21
réfléchir
COMPREHENSION DU LANGAGE NATUREL Les relations conceptuelles définissent les liens et spécifient les rapports qui existent entre les concepts du graphe. D’une manière générale, une relation se lit toujours dans le sens des flèches : [C1] (RELATION) [C2] signifie que « C1 a pour RELATION C2 » Par exemple :
LOC
Ville : Montréal
Et, on lit comme suit : La
Pays : Canada
ville de Montréal se localise à Canada .
Autre exemple : La phrase suivante peut être traduite- en graphe conceptuel - comme suit :
Ali suit un cours de mathématiques en France. Etudiant : Ali
AGT
Verbe : Suivre
OBJ
Matière : Mathématiques
LOC Pays : France
b) Résolution des problèmes du langage naturel par le MGC : Il est incontestable que la grammaire des langages naturels en général et la grammaire française en particulier renferme plusieurs ambiguïtés à cause des figures de style. D’ailleurs, le modèle des graphes conceptuels, conçu par Mr SOWA a pour objectif principal de résoudre les ambiguïtés linguistiques rencontrées en langage naturel telles que les problèmes de la polysémie, de la synonymie et de l’anaphore. En outre, il offre un cadre théorique permettant de représenter les constructions sémantiques profondes des verbes et des phrases en langage naturel…
Le cas de la polysémie : Le mot polysémie est d’origine grec, elle est nommée polus semos, c’est-à-dire, plusieurs sens. Donc, la polysémie consiste à avoir un mot ayant plusieurs sens. Il supporte donc plusieurs interprétations selon le contexte dans lequel il existe. Parfois, on se trouve dans un conflit de choix du sens d’un mot. Ici, intervient essentiellement le discours dans lequel ce mot apparaîtra, et dans certains cas, on peut avoir recours aux connaissances socioculturelles afin de déterminer le sens correct.
22
COMPREHENSION DU LANGAGE NATUREL Par exemple, le mot «comprend» peut prendre au moins deux sens : Comprend qui signifie la compréhension d’une idée, d’un phénomène,… (L’étudiant comprend le cours d’aujourd’hui). Comprend qui signifie la relation d’inclusion, c’est synonyme d’inclure, contenir, comporter, renfermer, … (L’ensemble des nombres réels IR comprend l’ensemble des entiers naturels IN). Pour que la machine puisse donc faire la distinction des deux sens du verbe «comprendre», il faut et il suffit qu’elle parvienne à le classer en deux classes : La classe VERBE_COGNITITION (son agent (l’étudiant) est un être humain animé) et La classe VERBE_INCLUSION (son agent (l’ensemble des nombres réels IR) est un ensemble en mathématiques, donc, un objet inanimé).
Le cas de la synonymie : La synonymie consiste à avoir des mots(ou des expressions) indiquant le même sens ou bien des sens très proches. En d’autre terme, on peut remplacer un mot (ou une expression) par un autre mot (ou autre expression) sans aucune modification du sens global du texte. Prenons le même exemple précédent (celui du verbe «comprendre»), on ait : Cette usine comprend plusieurs employés. Cette usine contient plusieurs employés. Cette usine renferme plusieurs employés. Cette usine comporte plusieurs employés. Cette usine inclut plusieurs employés. Dans tous les cas, le verbe «comprendre» et ses synonymes possibles doivent appartenir à la classe des VERBE_INCLUSION (qui manipule des objets inanimés).
Le cas de l’anaphore : L’anaphore, du grec anaphora ("reprise, rapport") est une figure de style qui consiste à commencer des phrases ou ensembles de phrases, par les mêmes mots ou les mêmes syntagmes. Elle rythme la phrase, souligne un mot, une obsession, communique plus d'énergie au discours ou renforce une affirmation. Syntaxiquement, elle permet de créer un effet de symétrie. Elle peut se schématiser ainsi : A_____ / A_____ Il s’agit donc d’une reprise de mot, mais seulement de son sens et de son référent et non de sa forme. En principe, l’anaphore suit l’élément qu'elle reprend. Parfois, le problème de l’anaphore peut être facilement résolu dans les cas des pronoms personnels ; Il suffit dans ces cas, de distinguer le genre, le nombre et le type du pronom pour savoir son antécédent. Exemple :
Ali et sa cousine sont partis en excursion. Elle a pris son caméra pour prendre des photos. Le pronom personnel «Elle» revient clairement à «sa cousine» et non pas Ali. Néanmoins, on trouve des cas assez complexes qui nécessitent des connaissances pragmatiques pour éliminer le conflit. Exemple :
23
COMPREHENSION DU LANGAGE NATUREL Ali s’est disputé avec son cousin. Il lui a volé son nouveau ballon. Dans ce cas, on constate que l’analyse sémantique est insuffisante, car, la machine a besoin de se référer au contexte pour, sélectionner à qui revient le pronom personnel «lui» ? D’où, la nécessité d’une quatrième phase d’analyse qui s’intéressera au contexte du discours : C’est l’analyse pragmatique.
4°) Analyse Pragmatique :
L
a pragmatique explique certaines phrases par la connaissance des CONVENTIONS sociales qui déterminent des attitudes culturelles. Contrairement aux autres phases d’analyse qui s’établissent de façon séquentielle tout en suivant un ordre chronologique, l’analyse pragmatique, elle, s’effectue de manière simultanée, car, elle peut intervenir lors de l’analyse sémantique ou morphologique. Le but général d’une telle analyse est de désambiguïser les différents sens possibles des mots et des structures syntaxiques (déjà déduites lors de la phase d’analyse syntaxique) tout en essayant d’identifier les référents justes des pronoms et des expressions descriptives. Ainsi, son résultat permet dans certains cas de modifier le résultat de l’analyse sémantique. Comprendre le sens réel des mots de la phrase en s’adoptant aux conditions correctes du contexte. Pour se faire, l’analyseur pragmatique est pourvu de «connaissances sur le monde», c’est-àdire, des informations sur tous les domaines, des historiques,… ce qui lui donne la possibilité de juger convenablement le rôle d’un pronom ou l’ambiguïté d’une anaphore,… Voici un exemple où l’analyse sémantique ne peut pas résoudre le problème :
L’Afrique contient l’Amérique. Cette phrase obéit aux règles sémantiques car, elle peut être schématisée par un graphe conceptuel. Seules les connaissances géographiques de la machine peuvent résoudre ce problème. Toutes ces connaissances sont stockées dans des bibliothèques organisées dans une encyclopédie appelée ontologie. Cette dernière est constituée suivant un modèle de connaissances hiérarchiques (des classes, des super-classes, des sous-classes). (Lors de l’analyse, l’interpréteur pragmatique intègre l’interprétation de l’énoncé au contexte et à l’historique). Exemple : Clavier fait partie de la classe des Ordinateurs qui fait partie de la classe de l’Informatique. Cette dernière appartient elle aussi à la classe des Sciences…
Sciences Informatique Ordinateur
24 Clavier
COMPREHENSION DU LANGAGE NATUREL
Ainsi, toute sorte d’ambigüité pouvant survenir dans les phases d’analyse précédentes peut être facilement résolue lors de cette phase. Par exemple, dans cette phrase : La fille contemple la nature. Elle l’a beaucoup plu. À qui revient le pronom personnel l’ ? À la nature ou bien à la fille ? Sémantiquement, on ne peut le déterminer mais, en analyse pragmatique, il serait facile de voir que c’est la nature qui a plu la fille grâce aux connaissances de l’analyseur, donc, le pronom (l’) revient à la nature. Comme le cas de l’analyse sémantique, plusieurs modèles, outils formels et théories ont été mis au point pour réaliser cette analyse, parmi lesquels, on trouve le modèle SDRT (Segmented Discourse Representation Theory) conçu par Asher. Cette théorie n’est qu’une extension du modèle DRT (Discourse Representation Theory) créé par Kamp. C’est une théorie de l’interface sémantique-pragmatique. Le but de cette théorie était de résoudre les anaphores propositionnelles et les anaphores pronominales tout en déclenchant convenablement les effets sémantiques dans leurs contextes.
Bref, on peut résumer les quatre étapes précédentes comme suit:
- Découper le texte en phrases et segmenter chacune des phrases en séquences d'unités lexicales. - Déterminer pour chaque mot déjà segmenté ses caractéristiques morphologiques. - Déterminer comment ces unités lexicales s'articulent les unes avec les autres pour former des groupes syntaxiques de niveau supérieur. - Reconnaître les rapports fonctionnels entre les syntagmes qui déterminent la structure sémantique de chaque phrase. - Interpréter les structures sémantiques par rapport au contexte de l'énoncé et au modèle du discours.
25
COMPREHENSION DU LANGAGE NATUREL
**Schéma Général du TALN: Texte = Chaîne de caractères
Analyse Analyse Analyse Morphologique Morphologique Morphologique
Analyse Analyse Syntaxique Syntaxique
Mots (formés de morphèmes)
Morphèmes lexicaux / morphèmes grammaticaux Analyse Analyse Pragmatique Pragmatique
L’analyse pragmatique intervient lors de la phase morphologique et sémantique
Déterminer le sens
Analyse Analyse Sémantique Sémantique
Utilisation d'ontologie
Arbre d'analyse
Modèle en constituants / Modèle en dépendance
Résultat
Figure 11 : Schéma récapitulatif des phases du TALN
III°) Etude de cas : Dans cette section, on procède de détailler l’étude d’un cas afin de détecter le fonctionnement des quatre analyseurs pour interpréter correctement un texte. Prenons par exemple le texte suivant :
Sabri et Gouider sont deux amis. Sabri a acheté un ballon. Il s’est disputé avec Gouider : Il le lui a volé. Première étape : Analyse Morphologique Segmentation du texte (phrases) :
26
COMPREHENSION DU LANGAGE NATUREL D’après ce texte, on obtient quatre phrases : Sabri et Gouider sont deux amis. (PH 1) Sabri a acheté un ballon. (PH 2) Il s’est disputé avec Gouider : (PH 3) Il le lui a volé. (PH 4) Segmentation des phrases (mots ou lexèmes) : Sabri – et – Gouider – sont – deux – amis – . Sabri – a – acheté – un – ballon – . Il – s’est – disputé – avec – Gouider – : Il – le – lui – a – volé – . Segmentation des mots (morphèmes) : Sabri – et – Gouider – sont – deux – ami – s – . Sabri – a – achet – é – un – ballon – . Il – s’ – est – disput – é – avec – Gouider – : Il – le – lui – a – vol – é – .
L’analyse morphologique teste si ces morphèmes existent dans son dictionnaire approprié (ontologie). Dans notre cas, tous les mots sont reconnus sauf, les deux noms propres (Sabri et Gouider) qui n’appartiennent pas au dictionnaire, donc, on déclenche une erreur morphologique et l’analyse s’arrête ici. On suppose que ces deux noms propres appartiennent à l’ontologie pour terminer notre étude.
Deuxième étape : Analyse Syntaxique PH 1
GN
GN
GV
N
PC
N
VP
Dét
N
Sabri
et
Gouider
sont ge
deux
amis
Figure 12 : Arbre d’analyse syntaxique de PH1
27
COMPREHENSION DU LANGAGE NATUREL
PH 2
GN
PP
AUX N
Sabri
GN
GV
Dét
a
acheté
un
N
ballon
Figure 13 : Arbre d’analyse syntaxique de PH2
PH 3
GN
AUX
PP
P Pers
Il
GN
GV
Prep
s’est
disputé
avec
N
Gouider
NB : pour faciliter la tâche, nous avons supposé que « s’est » est un auxiliaire.
Figure 14 : Arbre d’analyse syntaxique de PH3
28
COMPREHENSION DU LANGAGE NATUREL PH 4
GV
GN
P Pers
COD
COI
Aux
PP
Il
le
lui
a
volé
Figure 15 : Arbre d’analyse syntaxique de PH4 En effet, les 4 arbres d’analyses suivent la grammaire suivante :
Grammaire : G
PH GN.GV.GN | GN.COD.COI.GV GNN | PC.N | Det.N | prep.N | p pers GVVP | Aux.PP COD le COI lui Vp sont Aux a | s’est N Sabri | Gouider | amis | ballon PC et Det un | deux Pp acheté | disputé | volé P pers il Perp avec
(Pour voir la signification des symboles non terminaux, consulter l’annexe)
Troisième étape : Analyse Sémantique Sabri et Gouider sont deux amis. (PH 1)
Personne : Sabri
AM Amitié
Sabri a acheté un ballon. (PH 2)
29
Personne : Gouider
COMPREHENSION DU LANGAGE NATUREL
Personne : Sabri
Verbe : Acheter
AGT
OBJ
ballon
Il s’est disputé avec Gouider : (PH 3)
Personne : Il
Verbe : Disputer
AGT
PAT
Personne : Gouider
Agent passif Il le lui a volé. (PH 4)
Personne : Il
AGT
Verbe : Voler
PAT
Personne : lui
OBJ le
Quatrième étape : Analyse Pragmatique L’interpréteur utilise l’ontologie et le contexte général du texte pour déduire que : Dans la troisième phrase, Dans la dernière phrase,
Il Sabri il Gouider le ballon lui Sabri
Ainsi, la machine a pu éliminer le conflit et l’interprétation des phrases est donc correcte.
30
COMPREHENSION DU LANGAGE NATUREL
Quelques Exemples d’applications du TALN 1) Le traitement de la parole : NB : Le traitement et la synthèse de la parole est un domaine à part, notre étude se limitera aux étapes de passage de la parole de l’état vocal vers une structure textuelle, et vice versa .Donc, il ne faut pas confondre le traitement du langage naturel avec le traitement de la parole. **Définition de la reconnaissance vocale : La reconnaissance vocale peut être définie comme étant une conversion de la voix en fichier numérique. Elle permet de décoder le signal acoustique de la parole en une suite de mots effectivement prononcés. Le traitement de la parole est aujourd’hui une composante fondamentale des sciences modernes, situé au croisement du traitement du signal numérique et du traitement du langage. Les techniques modernes de traitement de la parole tendent cependant à produire des systèmes automatiques qui se substituent à l’une ou l’autre de ces fonctions : Les analyseurs de parole cherchent à mettre en évidence les caractéristiques du signal vocal, tel qu’il est produit, ou parfois tel qu’il est perçu (on parle alors d’analyseur perceptuel). Les reconnaisseurs ont pour mission de décoder l’information portée par le signal vocal à partir des données fournies par l’analyse. Les synthétiseurs ont quant à eux la fonction inverse de celle des analyseurs et des reconnaisseurs de parole : ils produisent de la parole artificielle. L’information portée par le signal de parole peut être analysée en diverses façons. On en distingue généralement plusieurs niveaux de descriptions non exclusifs : acoustique, phonétique, phonologique, morphologique, syntaxique, sémantique, et pragmatique.
Le niveau Acoustique : Lorsqu’un locuteur parle, le son émis par sa voix est capté par un microphone capable de capter des sonorités, mais en même temps il est incapable de faire la différence entre une voix humaine et un bruit quelconque. Pour mieux les différencier, on utilise un dispositif électronique qui intègre ce signal à plusieurs reprises. Lorsque l’intégrale connait une alternance, le système distingue qu’il est en présence d’un signal cohérent qui n’est que de la parole. Alors que si l’intégrale augmente et diminue subitement, le système constate que c’est un bruit et non pas une parole (exemple : Si l’interlocuteur tousse ou que le téléphone est raccroché).
31
COMPREHENSION DU LANGAGE NATUREL Vu que cette détection est faite, le signal est codé à laide d’un convertisseur analogique numérique. Il s’agit de comprimer la quantité d’informations présente dans le signal acoustique, afin d’économiser l’espace de stockage et de réduire le temps de traitement Cette compression est possible, car, la voix humaine est constituée d’une multitude de sons, souvent répétitifs. Une fois le signal est compressé, on peut facilement l’analyser.
Figure 16 : Le niveau Acoustique du traitement de la parole Le niveau phonétique : Il est intéressant de grouper les sons de parole en classes phonétiques, en fonction de leurs modes articulatoires. On distingue généralement trois classes principales : les voyelles, les semi-voyelles et les liquides, et les consonnes.
Le niveau phonologique : La phonologie (parfois appelée phonétique fonctionnelle) est l’interface nécessaire entre la phonétique et les descriptions linguistiques de niveau plus élevé. La phonologie introduit la notion d’unité abstraite du discours: le phonème. Le phonème est la plus petite unité phonique fonctionnelle. D’où la phase morphologique.
Le niveau morphologique : La suite des phonèmes prononcés correspond à des mots, choisis dans le lexique des mots de la langue. L’importance de la morphologie en traitement de la parole tient à ce que la catégorie grammaticale et la prononciation des mots peuvent être expliquées dans une large mesure par leur composition morphémique.
Le niveau syntaxique : Toute suite de mots du lexique ne forme pas une phrase correcte. En effet, la liste des phrases admises, bien qu’infinie dans les langues naturelles, est restreinte par leur syntaxe.
Le niveau sémantique : Si la syntaxe restreint l'ensemble de phrases acceptables pour une langue donnée, elle ne constitue cependant pas de limite exhaustive d'acceptabilité. L’étude des significations des mots, de la façon dont elles sont liées les unes aux autres, et des bases du choix lexical fait l’objet de la sémantique lexicale.
Le niveau pragmatique (ou niveau du discours) : Au contraire du sens sémantique, que l’on qualifie souvent d’indépendant du contexte, le sens pragmatique est défini comme dépendant du contexte. Son étendue couvre l’étude de
32
COMPREHENSION DU LANGAGE NATUREL sujets tels que les présuppositions, les implications de dialogue, les actes de parole indirects, etc. Voici un schéma récapitulatif qui résume ce thème : Enoncé oral
Modèle Acoustique
Capture de la parole Chaîne orthographique
Connaissances
Historique Cultures
Analyse Morphologique
Analyse Syntaxique
Traditions Contexte
Analyse Sémantique
Schéma Sémantique
Ontologie Phrase reconnue
Analyse Pragmatique
Génération Figure 17 : Schéma récapitulatif des étapes du traitement de la parole
33
Synthèse Enoncé oral /Enoncé écrit
COMPREHENSION DU LANGAGE NATUREL Exemples:
Dans le domaine de la reconnaissance automatique de la parole, on distingue trois grands types d'applications: - Les systèmes de commandes vocales (voitures, téléphones portables, aides aux handicapés, reconnaissances de chiffres,…). - Les machines à dicter. - Les systèmes de compréhension.
Figure 18 : Exemples de systèmes de commandes vocales
2) Traduction automatique : La traduction automatique désigne au sens strict le fait de traduire entièrement un texte grâce à un ou plusieurs programmes informatiques, sans qu'un traducteur humain n'ait à intervenir. La traduction automatique nécessite des règles grammaticales traitées lors de l’analyse syntaxique, des règles stylistiques (analyse morphologique), un dictionnaire et/ou une mémoire de traduction. Des difficultés se présentent pendant la traduction tels que les ambiguïtés lexicales, par exemple, la polysémie, les ambigüités syntaxiques, un même mot peut relever de deux catégories grammaticales différentes et les ambiguïtés sémantiques (analyse sémantique) : Selon le contexte, la traduction peut être différente. De même, les jeux de mots sont très difficiles à traduire (la poésie, …). Pour que le programme soit capable de fournir une traduction correcte, il faut qu'il dispose, en plus de connaissances linguistiques, de connaissances factuelles sur l'état du monde (analyse pragmatiqueontologie) (par exemple, il doit savoir que telle personne est de sexe féminin); qu'il soit capable de réaliser une certaine interprétation du texte qui lui est soumis: s'il rencontre le mot « secrétaire », il a besoin de savoir, selon la langue-cible, le sexe de ce/cette secrétaire ou de son employeur. Une dernière difficulté qui n'est pas à négliger mais sur laquelle peu de gens insistent: les erreurs d'écriture qui empêchent les logiciels de faire leur travail. Et il ne faut pas seulement
34
COMPREHENSION DU LANGAGE NATUREL penser aux fautes d'orthographe: les fautes de langue, même courantes, compliquent singulièrement la tâche. Prenons l'exemple de:
Nous avons résolu le problème. N'importe quel logiciel vous donnera tout de suite:
We solved the problem.
Figure 19 : Exemple d’une traduction correcte sous Translated Mais on rencontre souvent des mots mal orthographiés, comme dans:
On à résolut le problème. 35
COMPREHENSION DU LANGAGE NATUREL En combinant fautes d'orthographe et emploi populaire de «on» pour «nous». Cela donnera quelque chose dans le goût de:
One with solved the problem. On trouve plusieurs programmes de traduction automatique citons par exemple babylon ainsi les traducteurs en ligne tels que services.lycos, SYSTRAN, Translated.
36
Figure 20 : Exemple d’une traduction fausse sous Translated
COMPREHENSION DU LANGAGE NATUREL
Figure 21 : Exemple de traducteur : SYSTRAN
3) Recherche d’informations :
L
a recherche de l’information est un domaine très ancien, il met en jeu pour l’usager toute une série de processus cognitifs (lecture, résolution de problèmes, savoirs procéduraux et savoirs déclaratifs,..). Mais ce domaine s’est développé surtout avec l’apparition des systèmes informatisés. Des spécialistes dans le domaine de la
recherche ont proposé des modèles de recherche d’informations (modèles de RI) pour se rendre compte de ce qui se passe lors de la recherche d’informations. Généralement, ces modèles se basent sur quatre étapes : L’énonciation du problème Le choix de la source d’information L’extraction de l’information L’examen des résultats. Maintenant avec les systèmes informatisés, la recherche d’informations est basée sur trois éléments principaux : l’usager, l’ensemble des documents et entre eux un moteur de recherche (comme un bibliothécaire dans une bibliothèque). En effet, c’est un moyen capable d’interroger la base de données, ainsi, l’usager ayant un besoin d’informations, il l’exprime sous forme de questions d’un langage naturel et le moteur de recherche transcrit celle-ci en requête pour interroger la base de données, pour se faire : *La première étape est d'établir des techniques permettant de passer d'un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes et correspond à L'indexation des documents :
Il faut extraire d'un texte un ensemble de descripteurs (mots clés). Ceux-ci sont la plupart du temps (après suppression des mots grammaticaux par exemple)
37
COMPREHENSION DU LANGAGE NATUREL
l'ensemble des termes qui apparaissent dans un document, souvent transformés, c’est là où l’analyse morphologique intervient pour donner la forme canonique de chaque mot du texte. À l'aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur dans l'espace des termes. Il est également possible d'utiliser des connaissances à priori sur la façon dont les termes sont répartis dans les documents suivant leur importance où le système a besoin d’utiliser les analyses sémantiques et pragmatiques.
*La deuxième étape est la recherche de l’information : Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur. Plusieurs approches peuvent être distinguées :
L'approche ensembliste qui considère que l'ensemble des documents s'obtient par une série d'opérations (intersection, union et le passage au complémentaire). Le langage de requête SQL1 correspond à cette approche dite aussi de logique de premier niveau. L'approche algébrique (ou vectorielle) qui considère que les documents et les questions font partie d'un même espace vectoriel. L'approche probabiliste qui essaie de modéliser la notion de pertinence (la présence ou bien l’absence d’un mot particulier influe sur la compréhension du sens du texte).
Il est enfin possible d'utiliser des modèles capables d'interagir avec l'utilisateur afin d'améliorer petit à petit les réponses du système de RI au cours d'une session. L'utilisateur indique à chaque fois les documents pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI.
4) Correction d’orthographe :
U
n correcteur est, en informatique, un outil logiciel permettant d'analyser un texte afin de détecter, et éventuellement de corriger, les fautes d'orthographe et les coquilles (erreurs) qu'il contient. On ne doit pas confondre le correcteur orthographique et le correcteur grammatical (également appelé vérificateur grammatical) qui intervient lors de la phase syntaxique. Le correcteur orthographique compare les mots du texte aux mots d'un dictionnaire. Si les mots du texte sont dans les dictionnaires, ils sont acceptés, sinon une ou plusieurs propositions de mots proches sont faites par le correcteur orthographique. Il s’agit donc de la phase d’analyse morphologique et pragmatique. Ce logiciel peut être autonome et fonctionne sur un bloc de texte brut, mais la fonction de correction est souvent intégrée dans les logiciels où l'utilisateur est amené à saisir du texte. Elle l'a été au début dans les logiciels de traitements de texte et aujourd'hui dans les forums, les gestionnaires de courriers, dans les navigateurs web L'analyse peut se faire en temps réel, c'est-à-dire au fur et à mesure que l'utilisateur saisit le texte, les erreurs étant alors formatées d'une manière différente afin d'attirer son attention
38
COMPREHENSION DU LANGAGE NATUREL et l'inciter à corriger, avec les propositions de correction dans un menu contextuel, ou bien en une seule fois, à la demande de l'utilisateur. Exemples :
Dans le moteur de recherche Google, la correction s’effectue en temps réel tout en proposant des solutions de correction qui apparaissent dans le navigateur web.
Figure 22 : La détection et la correction d’erreurs sous Google
Dans cet exemple, la correction des erreurs s’effectue en temps réel : Lors de la saisie du texte, les mots erronés seront automatiquement détectés et soulignés par le correcteur des erreurs intégrées dans le logiciel Microsoft Word 2007. Figure 23 : La détection et la correction d’erreurs sous Word 2007
On trouve en plus d’autres domaines d’applications qu’on n’a pas détaillés tels que :
Enseignement assisté par ordinateur Interrogation de bases de données Fabrication d’outils spécifiques pour systèmes intégrés Parcours de texte pour indexation automatique Génération de texte pour documents standardisés
39
COMPREHENSION DU LANGAGE NATUREL
Avantages L
a compréhension du langage naturel est l'une des filières les plus importantes en Intelligence Artificielle grâce à ses avantages. Parmi lesquels, on en cite:
1) Aptitude de la machine de comprendre les paroles vocales: La machine devient capable de capter la parole, l'analyser et reproduire des réponses sous forme de texte, son,… Par exemple, dans le domaine de la base de données, l'Homme est apte d'interroger directement la base de données pour en extraire des informations des tables sans avoir besoin de connaître la syntaxe du langage utilisé, ni connaître la structure détaillée des tables. Ainsi, ce domaine peut être facilement utilisé même par des non experts dans le domaine de l'Informatique, ce qui facilite l'interaction Homme/Machine.
2) La traduction automatique: La machine demeure capable non seulement de traduire des textes de n'importe quel langage vers un autre, mais, surtout de rectifier les erreurs qui peuvent survenir lors de la saisie tels que les erreurs syntaxiques, sémantiques et pragmatiques. Par exemple, Translated, Microsoft Word 2007,…
3) Faciliter et rapidité d'utilisation: En effet, l'Homme n'est pas obligé d’utiliser un langage structuré pour aboutir à ses besoins, il peut, en revanche, parler naturellement avec sa machine et utiliser du texte libre en langage parlé. Par exemple, par un simple ordre vocal, tu peux organiser tes dossiers, tes fichiers et tes logiciels selon n'importe quel critère, ainsi que la classification de ces derniers suivant un ordre particulier.
4) Sécurité système: Les systèmes modernes sont pourvus de capacités d'authentification de la parole. Les systèmes détectent la fréquence du son pour n'autoriser le passage qu'aux propriétaires du système. Ce système est surtout utilisé dans les grands établissements tels que NASA, les prisons à haute sécurité, les banques centraux, …
5) Application de diverses opérations sur des textes: Une fois que l'utilisateur ait tapé un texte, l'ordinateur, lui, est capable de corriger ses erreurs, le résumer et en extraire des informations afin de répondre aux différentes questions posées par l'utilisateur.
40
COMPREHENSION DU LANGAGE NATUREL
Inconvénients
M
algré son importance, la compréhension du langage naturel présente plusieurs inconvénients perspectifs qu'on ne peut pas négliger car, ils présentent des sujets de recherche jusqu'au moment. Parmi ces inconvénients, on en cite:
1) Difficulté de la machine de comprendre la sémantique: Malgré l'apparition et l'utilisation de plusieurs modèles et techniques dans le développement des capacités de la machine à appréhender le sens des mots, tel que le Modèle des Graphes Conceptuels (M.G.C.), la machine n'arrive pas à comprendre vraiment la sémantique des mots, c'est-à-dire, le sens souhaité par l'utilisateur. Les chercheurs ont pu concevoir des applications développant l’analyse sémantique mais, ceci n’est pas général car, il demeure limité à des domaines précis.
2) Coûts de développement trop cher: Lors du développement des systèmes utilisant le TALN, les scientifiques et les experts dépensent une grande fortune même pour réaliser des tâches rudimentaires.
3) Complexité de l'organisation des données: Certes, l'organisation hiérarchique des données est très complexe car, parfois, on atteint des milliers de niveaux arborescents. Par exemple, Département d'Informatique FSB Zarzouna Bizerte Tunisie Le Grand Maghreb l'Afrique Le globe Terrestre Le Système Solaire … Qu'en pensez vous donc dans des domaines scientifiques, si on part d'éléments microscopiques???
4) Insuffisance de base de connaissances: Lors de la phase pragmatique tu traitement automatique du langage naturel, on a recours à utiliser les données de la base de connaissances, qui sont dans la plupart du temps insuffisantes ou contenant des erreurs car, aucune machine ne peut guère contenir la totalité des informations. Qu'est ce qui nous garantit que ces connaissances sont toutes justes, surtout si l'information est reliée avec les attitudes et les traditions d'un peuple ou d'un pays?
5) Mauvaise interprétation des figures de style:
41
COMPREHENSION DU LANGAGE NATUREL Ceci est considéré en guise de l'un des problèmes majeurs du TALN, car, la machine interprète de façon incorrecte les figures de style, dont la compréhension nécessite un minimum d'intelligence. Voici un tableau récapitulatif qui permet de résumer les pièges et les difficultés du langage naturel :
Définition:
Synonymie Mots ou expressions différents ayant le même sens, ou des sens voisins.
Paraphrase Expressions équivalentes mais de structure ou de termes différents.
Glissement de sens La dénotation : sens propre d’un mot. La connotation : sens d’un mot dans un contexte particulier. Homonymie Mots ayant la même forme, la même graphie mais des sens différents.
Ambiguïté
Redondance
Figure de Style:
Polysémie Mots ou expressions ayant plusieurs sens.
Homotaxie Une même syntaxe recouvrant des réalités différentes.
Exemple: Inclure, comprendre, contenir, renfermer, … Jean a cessé de fumer. Jean a renoncé au tabac. Il prend un bain Il est dans le bain Je porte la porte. Les poules du couvent couvent. Mémoire humaine, mémoire d’ordinateur, la mémoire de maîtrise… Jean est facile à convaincre. Jean est habile à convaincre.
Voici un exemple où le verbe "aimer" peut prendre plus qu'un sens:
Jean aime Marie. (Personne aime personne) Jean aime la soupe. (Personne aime objet) Néanmoins, malgré la multitude de ces inconvénients, la recherche dans ce domaine a donné naissance à plusieurs solutions qui peuvent remédier à ces problèmes.
Quelles sont donc ces solutions?
42
COMPREHENSION DU LANGAGE NATUREL
Quelques Visions Futuristes Dans cette section de notre travail, nous avons essayé de mettre l’accent sur les futurs projets estimés à être réalisés par les experts du domaine afin d’évaluer l’importance de notre thème dans notre vie en général et dans le domaine de l’I.A. en particulier. L’Homme pense à réaliser une nouvelle catégorie d’ordinateurs intelligents destinés dans le domaine éducatif, il lit des centaines d’essais d’étudiants et les note comme si c’était un humain. Donc, il a tendance à être privilégié des quatre capacités d’analyses du langage naturel. En outre, on cherche à développer un programme équipé de vision qui fournit un rapport automatisé d’un jeu comme un match de football. Notre travail n’est pas destiné au domaine de la robotique mais, il faut jeter un coup d’œil sur ce projet car, il serait le fruit de notre sujet: Un laboratoire de recherche informatique pense créer un robot qui sera nommé HAL, c’est un agent artificiel intelligent capable de faire du traitement avancé du langage (parler et comprendre l’Anglais, parfois même lire sur les lèvres). Cet agent serait capable de faire de la reconnaissance de la parole (speeh recognition), la compréhension du langage naturel (natural language understanding), lecture des lèvres (Lip reading), la génération du langage
43
COMPREHENSION DU LANGAGE NATUREL naturel (natural Language generation), la synthèse de la parole (Speech synthesis), aussi bien que la recherche de l’information (Information retrievial), extraction de l’information (Information extraction), … Cet agent intelligent pourra aussi produire et reconnaître les variations de chaque mot, donc des connaissances morphologiques (informations sur la forme et le comportement des mots). En plus, HAL aura des connaissances pour pouvoir ordonner et regrouper des mots ensembles, c’est-à-dire, des connaissances de type syntaxiques. Eventuellement, HAL sera capable aussi d’utiliser les types de gentillesses (formes de politesses) du genre I am sorry, I’m afraid,… d’où, il est pourvu de capacités d’analyses pragmatiques. Mais, quelle date signalera la réalisation effective de ce projet ? Il est déjà 2008, et ce type d’agents n’existe pas encore !!
44
COMPREHENSION DU LANGAGE NATUREL
Conclusion
I
l est incontestable que l’informatisation est le phénomène le plus important dans notre vie moderne. L’I.A., elle, est l’une des filières les plus indispensables grâce à ses domaines d’applications vastes et très avantageux, et surtout le domaine de la compréhension du langage naturel qui est en guise de l’un des problèmes les plus durs de l’I.A. Le TALN a pour objectif majeur de faire comprendre notre langage à la machine au lieu d’apprendre son langage. Cette tâche n’est pas facile, d’ailleurs, elle présente le projet de recherche de plusieurs scientifiques et informaticiens. Malheureusement, les experts du domaine ne sont pas parvenus jusqu’à présent de concevoir des applications vraiment confidentes, intelligentes et possèdent des caractères proches ou semblables à l’être humain, surtout sur les deux côtés sémantiques et pragmatiques. Or, faire comprendre un langage naturel à une machine revient exactement à formaliser des machines capables de maitriser ce langage de la même manière que nous le faisons, c’est donc un signe de l’arrivée des machines qui pensent… Certes, c’est le moment ou jamais de rendre le comportement de la machine «HUMAIN» pour que l’humanité puisse s’en bénéficier, avancer et s’émanciper progressivement… Mais, la question qui se pose est : Est-ce que l’Homme parviendrait un jour à réaliser effectivement tel projet ou bien ceci resterait un rêve très difficile à atteindre ??
45
COMPREHENSION DU LANGAGE NATUREL
Annexe Dans cette section, nous allons essayer de définir quelques mots scientifiques (ou des noms propres) qu’on a utilisés dans ce rapport tels que : *Intelligence : C’est l’habilité d’adaptation pour comprendre les relations, l’évaluation, le jugement et la capacité de penser pour la connaissance et l’habilité de l’acquérir. *Artificiel : L’IA est artificielle à cause de ses origines et de son mode de création. C’est le résultat d’un processus humain plutôt que d’un processus naturel. *Deep – Blue : C’est un ordinateur d'échecs tournant sur un superordinateur modifié afin de le spécialiser dans le jeu d'échecs par adjonction de circuits spécifiques, développé par IBM au début des années 1990. *Kasparov : Garry Kimovitch Kasparov (13 avril 1963 à Bakou, URSS (aujourd'hui en Azerbaïdjan) -a été jusqu'en 2005 un joueur d'échecs, considéré par beaucoup comme le meilleur joueur de tous les temps. Il a obtenu le classement Elo le plus élevé jamais enregistré, étant notamment le premier joueur à dépasser les 2 800 points. Il est surnommé « l'ogre de Bakou » et « le monstre aux cent yeux qui voient tout ». Il est également engagé politiquement dans l'opposition à Vladimir Poutine. *Modèle : C’est une représentation symbolique normalisée fondée sur des lois scientifiques (lois mathématiques par exemple) qui permet de résoudre un problème spécifique. *Technique : C’est une ou un ensemble de méthodes, dans les métiers manuels elle est souvent associée à un tour de main professionnel . *Méthode : Définit un processus d’informatisation, possède un champ d’étude et décrit une démarche logique à suivre. Ses principaux objectifs sont : Minimiser le taux d’erreurs (c’est-à-dire, réduire les risques d’erreurs). Réduire la complexité aux informaticiens. Maitriser les budgets fixés. Améliorer la communication entre les divers intervenants. Rendre cohérentes les solutions conçues et assurer leurs bonnes intégrations dans une stratégie globale. * Réseau de neurones : C’est l ’une des techniques les plus répandues de l’intelligence artificielle où l'ordinateur apprend tout seul à partir d'un nombre d'informations limité au départ. Les réseaux de neurones constituent un outil informatique qui, grâce à une analyse statistique, permet de construire un modèle de comportement à partir d'un nombre d'exemples (limité).
46
COMPREHENSION DU LANGAGE NATUREL *Robotique : La robotique est une science qui étudie les systèmes électromécaniques actionnés et contrôlés par le biais d'un ensemble de logiciels leur conférant une intelligence dite artificielle. *Agent intelligent : C’est un logiciel destiné à effectuer une opération de façon autonome. Les agents dits " intelligents " peuvent être dotés de mémoire, de capacité d’apprentissage et d’une faculté d’adaptation à l’environnement virtuel dans lequel ils évoluent. *Système expert : D'une manière générale, un système expert est un outil capable de reproduire les mécanismes cognitifs d'un expert, dans un domaine particulier. Il s'agit de l'une des voies tentant d'aboutir à l'intelligence artificielle. *Ambiguïté : C’est la propriété de mots, de termes ou de concepts à être indéfini ou indéfinissable et donc d'être caractérisé par le fait de ne pas être très clair. On distingue trois types d’ambiguïtés : Ambiguïté lexicale, syntaxique et sémantique. *Ontologie : Mode de représentation des connaissances en informatique. *Parole : La parole est un son émis par le locuteur, c’est à dire une variation de pression acoustique plus ou moins rapide et plus ou moins forte qui est captée par un microphone placé à proximité.
**Types de relations utilisés dans les graphes conceptuels : - AGT : agent (entité intervenant de façon active et directement dans le procès) - PAT : patient (entité intervenant de façon passive dans le procès - OBJ : objet (entité affectée par le procès) - INST : instrument (moyen par lequel un agent agit pour un résultat ou une cause) - LOC : lieu - TEM : temps - DEST : destination (aboutissement qui peut être de nature spatiale) - ORIG : origine (provenance spatiale ou abstraite) - CRC : caractéristique - MNR : manière - APP : appartenance - POSS : possession
**Les symboles utilisés dans la grammaire Gr : PH PHrase GN Groupe Nominal GVGroupe Verbal DétDéterminant AdjAdjectif NNom
47
COMPREHENSION DU LANGAGE NATUREL VVerbe PCPréposition de Coordination VPVerbe au Présent Aux Auxiliaire PPParticipe Passé PrepPréposition PPersPronom Personnel CODComplément d’Objet Direct COIComplément d’Objet Indirect
48
COMPREHENSION DU LANGAGE NATUREL
Bibliographie & Webographie www.irit.fr/Livret- IA www.semantis.fr www.teluq.uquebec.ca www.webmaster-hub.com www.alexandre.alapetite.net www.library.thinkquest.org www.joel-levee.com www.wikipedia.org www.traduction.translated.net Modèle de graphes conceptuels et représentation sémantique du langage naturel - ERSICO (Equipe de Recherche sur les Systèmes d'information et de Communication des Organisations) Université JeanMoulin Lyon 3 Représentation des connaissances / Traitement du langage naturel (Natural Language Processing) Nicolas Turenne – INRA - [email protected] - 2006 Françoise GAYRAL, Daniel KAYSER, François LÉVY* Logique et sémantique du langage naturel: Modèles et interprétation Traitement du langage naturel _ Jean François Lucas La constitution du TAL ** Étude historique des dénominations et des concepts ** Marcel Cori — Jacqueline Léon**
49
COMPREHENSION DU LANGAGE NATUREL
50
COMPREHENSION DU LANGAGE NATUREL
51