Machines Parlantes

  • Uploaded by: Badreddine
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Machines Parlantes as PDF for free.

More details

  • Words: 3,203
  • Pages: 14
République Algérienne Démocratique et Populaire Ministère de l’enseignement supérieur et de la recherche scientifique

Université de Guelma Faculté des Sciences et de L’ingénierie

Département de : informatique Spécialité : Intelligence Artificielle =====================================================

EXPOSE SUR : les machines Parlantes =====================================================

Réalisé par :

sous la direction de :

 Chiheb Badreddine  Gueroui omar 2008/2009

R. bourbia

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

SOMMAIRE

1. Introduction .................................................................................................................. . .01 2. Historique des machines parlantes .................................................................................. 02 3. Qu’est-ce que la parole ? ................................................................................................. 03 3.1. Le niveau acoustique ....................................................................................... 03 3.2 Le niveau phonétique et phonologique………………………………………...03 3.2.1 Les branches de la phonétique…………………………………………..03 3.2.2 Les branches de la phonologie…………………………………………...04 3.3 Le niveau morphologique……………………………………………………....04 3.4 Le niveau syntaxique ........................................................................................ 04 3.5 Le niveau sémantique………………………………………………………….05 3.6 Le niveau pragmatique ...................................................................................... 05 4. Système de synthèse à partir du texte…………………………………………………..05 5. Applications……………………………………………………………………………..06 6. Organisation générale du module de traitement du langage naturel…………………….08 7. compréhension de parole et dialogue oral homme-machine……………………………..09 8. Conclusion ............................................................................................................................... …11

2

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

1. Introduction : L’application

de techniques d’analyse des langages formels et la confrontation de la linguistique aux exigences de la modélisation informatique ont conduit en quelques décennies à l’émergence d’un véritable domaine de recherche : la linguistique informatique. Les progrès réalisés en électronique (augmentation de la vitesse des possesseurs et des capacités de mémoire des ordinateurs) associés à la disponibilité des ressources linguistique électronique ont permis le développement d’applications concrètes, dont la demande s’est progressivement faite croissante. Ces applications, chacune circonscrite à un domaine particulier mais nécessitant des traitements automatiques du langage naturel, écrit ou oral, relèvent aujourd’hui de ce qui on appelle plus généralement l’ingénierie de langue Leur développement a surtout été redu possible grâce aux efforts et aux progrès réalisés dans la définition d’outils pour le traitement de la langue (algorithmes d’analyse, de génération, d’acquisition de connaissances linguistiques), de modèles formels (grammaires, formalismes lexicalisés) pour représenter ces connaissances, et dans le développement de procédés de création et de gestion de ces ressources.[1] Nous nous intéressons dans le cadre de cet exposé à l’un des grands domaines applicatifs d’ingénierie des langues : Les machines parlantes. Cet exposé fait le point sur les niveaux de description de parle après l’historique des machines parlantes, puis nous présentons le système de synthèse à partir du texte (machine capable a lire a partir de texte) et ces domaines d’applications et on terminera avec le principe de système de dialogue homme machine.

3

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

2. Historique des machines parlantes : Mersenne évoque la possibilité de construire un orgue prononçant des sons de la parole. Le XVIIIème siècle voit apparaître une floraison d’automates. Pierre Jaquet Droz (17211790) et Jacques de Vaucanson (1709-1782) sont sans doute les plus connus des constructeurs d’automates du siècle des Lumières. En héritiers du mécanisme de Descartes, ils cherchent à reproduire les principales fonctions de la vie (digestion, circulation, respiration). Parmi les automates les plus célèbres figurent « Le Joueur de Flûte », automate androïde d’1m50 qui pouvait jouer une douzaine d’airs, et le « Canard », qui battait des ailes, mangeait du grain et le rendait digéré (la digestion s’est avérée être une supercherie), présentés à Paris en 1738. Il est probable que Vaucanson envisageait la construction d’un automate parleur [2]. En 1780, le Danois Kratenstein remporte le prix annuel de l’Académie Impériale de SaintPétersbourg en construisant un orgue composé d’une série de résonateurs capables de prononcer les cinq voyelles Figure 1.

(Figure 1) : Résonateurs de Kratenstein en 1770. [2] L’abbé Mical construit en 1778 une « Téte d’airain » capable de prononcer une phrase, et présenter à l’académie des sciences en 1783 une machine composée de deux téte parlantes, qui séduit l’écrivain et journaliste Rivarol. C’est le baron Wolfgang von Kempelen (1734-1804) qui a réalisé à Vienne en 1791 la machine parlante la plus perfectionnée, après avoir construit un automate plus rudimentaire dès 1778. Von Kempelen est connu pour son automate joueur d’échec qui fut présenté dans divers pays et remporta des parties contre les grands de ce monde, mais qui s’avéra être une supercherie (celle-ci fut dénoncée par Edgard Poe dans ses Histoiresgrotesques et merveilleuses), un joueur humain de petite taille étant caché dans la machine. Cette supercherie porta sans doute du tort à la crédibilité de sa machine parlante, qui était pourtant une invention remarquable pour l’époque. Un soufflet faisait vibrer une anche qui excitait un résonateur unique dont on faisait varier la forme pour les différentes voyelles avec une main. Les consonnes, y compris les nasales étaient produites par quatre passages d’air que l’on contrôlait avec les doigts de l’autre main [2].

4

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

(Figure 2) : la machine parlante de von Kempelen [2].

3. Qu’est-ce que la parole ? L’information portée par le signal de parole peut être analysée de bien des façons. On en distingue généralement plusieurs niveaux de description non exclusifs : acoustique, phonétique, phonologique, morphologique, syntaxique, sémantique, et pragmatique [3].

3.1 Le niveau acoustique : La parole apparaît physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire. La phonétique acoustique étudie ce signal en le transformant dans un premier temps en signal électrique grâce au transducteur approprié : le microphone (lui-même associé à un préamplificateur).

3.2 Le niveau phonétique et phonologique : [4] La distinction phonétique / phonologie est issue de la tradition structurale fonctionnaliste. Phonétique Étude des sons de la parole appelés phones

Phonologie Étude des sons à valeur linguistique, phonèmes en relation avec un signifié. Les traits phoniques sont appréhendés par rapport à leur valeur distinctive.

3.2.1 Les branches de la phonétique : Étape de la communication

Branche de la phonétique correspondante

Production

Phonétique articulatoire (étude des organes de la parole et de la production des sons) Phonétique acoustique (étude des propriétés physiques des sons) Phonétique auditive (étude de l'appareil auditif et du décodage des sons)

Transmission Perception

5

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

3.2.2 Les branches de la phonologie : [4] Phonématique Étude linguistique des unités distinctives de la langue, les phonèmes que l'on peut :

Prosodie Étude de la valeur linguistique des sons selon : -leur durée (cs), -leur intensité (dB), - et leur variation mélodique (Hz).

- commuter sur un axe paradigmatique : ex. /ru/ (rue) / /nu/ (nu) (Le phonème a une fonction distintive) - permuter sur un axe syntagmatique : ex. /sale/ (salé) / /lase/ (lacé) (Le phonème a alors une fonction démarcative)

A partir desquels les phénomènes d'accentuation et d'intonation sont constitués.

(Figure 3) : Exemple de prosodie [5].

3.3 Le niveau morphologique : [3] La morphologie est la branche de la linguistique qui étudie comment les formes lexicales sont obtenues à partir d’un ensemble réduit d’unités porteuses de sens, appelées morphèmes. On distingue les morphèmes lexicaux des morphèmes grammaticaux, qui apportent aux premiers des nuances de genre, nombre, mode, temps, personne, etc. Tout comme le phonème, le morphème est une unité abstraite. Elle peut être réalisée en pratique sous diverses formes appelées allomorphes, fonction de leur contexte morphémique. Ainsi le morphème grammatical du pluriel se manifestet-il sous la forme d’un ‘s’ dans ‘pommes’, d’un ‘x’ dans ‘jeux’ et d’un ‘nt’ dans ‘jouent’. L’importance de la morphologie en traitement de la parole tient à ce que la catégorie grammaticale et la prononciation des mots peuvent être expliquées dans une large mesure par leur composition morphémique.

3.4 Le niveau syntaxique : Toute suite de mots du lexique ne forme pas une phrase correcte. En effet, la liste des phrases admises, bien qu’infinie dans les langues naturelles, est restreinte par leur syntaxe. Ceci constitue d’ailleurs la définition du mot syntaxe¸ qu’il ne faut pas confondre avec les règles utilisées pour la décrire, organisées sous la forme de grammaires. Les mots du lexique y 6

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

perdent leur individualité pour n'être plus vus qu'en tant que parties du discours (ou natures), listes de mots interchangeables pour une grammaire donnée). Par exemple, la grammaire (arbitrairement simplifiée) : phrase = groupe nominal + verbe conjugué groupe nominal = déterminant + nom [+ préposition + groupe nominal] où les crochets indiquent des composantes optionnelles, interdit les phrases déterminant+verbe conjugué comme dans 'mon donne' ou 'les joue'.

3.5 Le niveau sémantique : Si la syntaxe restreint l'ensemble de phrases acceptables pour une langue donnée, elle ne constitue cependant pas une limite exhaustive d'acceptabilité. En effet, bon nombre de phrases syntaxiquement correctes restent inadmissibles (ex : 'la politesse jaune pleure du pain'). Cette imprécision tient à la confusion qui est faite, par les grammaires, des mots appartenants a une même liste d'éléments du discours. L’étude des significations des mots, de la façon dont elles sont liées les unes aux autres, et des bases du choix lexical fait l’objet de la sémantique lexicale. Parmi les principales questions qu’il lui appartient d’examiner, les problèmes d’ambiguïté de portée prennent un part importante. Une phrase aussi simple que : 'Jean-François n’est pas parti à New York en avion'. peut en effet être comprise comme : Quelqu’un d’autre est parti à New York en avion Jean-François est parti de New York en avion Jean-François est parti ailleurs. Jean-François est parti à New York par un autre moyen de transport selon l’étendue du champ d’application de la négation, et ceci bien que toutes ces acceptions admettent la même description syntaxique.

3.6 Le niveau pragmatique (ou niveau du discours) : Au contraire du sens sémantique, que l’on qualifie souvent d’indépendant du contexte, le sens pragmatique est défini comme dépendant du contexte. Tout ce qui se réfère au contexte, souvent implicite, dans lequel une phrase s’inscrit et à la relation entre le locuteur et de son auditoire,Son étendue couvre l’étude de sujets tels que les présuppositions, les implications de dialogue, les actes de parole indirects, etc. Elle est malheureusement bien moins développée encore que la sémantique.

4. Système de synthèse à partir du texte : [3] Un système de synthèse à partir du texte (TTS : Text-To-Speech) est une machine capable de lire a priori n'importe quel texte à voix haute, que ce texte ait été directement introduit par un opérateur sur un clavier alpha-numérique, qu'il ait été scanné et reconnu par un système de reconnaissance optique des caractères (OCR : Optical Character Recognition), ou qu'il ait été produit automatiquement par un système de dialogue homme-machine. Un tel système diffère fondamentalement d'autres machines parlantes en ceci qu'il est destiné à donner lecture de phrases qui n'ont en principe jamais été lues auparavant. Il est en effet possible de produire automatiquement de la parole en concaténant simplement des mots ou des parties de phrases 7

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

préalablement enregistrées, mais il est clair dans ce cas que le vocabulaire utilisé doit rester très limité et que les phrases à produire doivent respecter une structure fixe, afin de maintenir dans des limites raisonnables la quantité de mémoire nécessaire à stocker les éléments vocaux de base. C'est le cas par exemple des annonceurs vocaux automatiques dans les gares. On définira donc plutôt la synthèse TTS comme la production automatique de phrases par calcul de leur transcription phonétique.

Texte

Transcription Graphème/phonème

chaine Phonétique

Connaissances Morpho-syntaxiques, Phonologiques

Génération acoustique Prosodique

dictionnaire de sons règles de fusion modèles prosodiques

(Figure 4) : Le principe d'un système de synthèse à partir de texte ou (Text- To-Speech) : [6]

5. Applications : [3] Les applications des systèmes de synthèse à partir du texte ne manquent pas. En voici quelques exemples : 

Services de télécommunications :

La libéralisation du marché des télécommunications en Europe a récemment rendu les opérateurs de télécommunications plus sensibles au confort de leurs clients. En particulier, on cherche désormais à fournir un maximum de services, à moindre coût. Les synthétiseurs permettent précisément de rendre tout type d'information écrite disponible via le téléphone. On peut ainsi créer des serveurs vocaux diffusant les horaires des cinémas, des informations routières, l'état d'un compte en banque, ou encore des explications automatisées concernant la dernière facture de téléphone. Les requêtes se font soit par la voix (en combinant le synthétiseur avec un reconnaisseur), soit par le clavier du téléphone. AT&T a récemment testé certains services de ce type auprès de ses clients, et constaté un réel engouement, à condition que l'intelligibilité des voix de synthèse soit suffisante; il s'est avéré que le naturel n'est pas un facteur déterminant pour la plupart de ces services.

8

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE



Apprentissage (ou perfectionnement) de langues étrangères :

Une synthèse de très bonne qualité couplée à un logiciel d'apprentissage constitue un outil très utile à l'apprentissage d'une nouvelle langue, en complément d'un cours avec un professeur. Si ce type de produit n'a pas encore percé sur le marché, c'est à cause de la mauvaise qualité des voix disponibles jusqu'à il y a peu. On voit par contre se multiplier les petits dictionnaires électroniques de poche, qui devraient rapidement être dotés de voix de synthèse. Il en va de même des traducteurs électroniques mot-à-mot qui sont apparus récemment. On pourra par exemple bientôt lire un ouvrage dans une langue étrangère et utiliser un stylo à lecture optique (intégrant un mini-scanner) pour obtenir instantanément la traduction d'un mot inconnu et sa prononciation. 

Aide aux personnes handicapées :

Les handicaps liés à la parole sont soit d'origine mentale, soit d'origine motrice ou sensorielle. La machine peut être d'un grand secours dans le second cas. Avec l'aide d'un clavier spécialement adapté et/ou d'un logiciel d'assemblage rapide de phrases, un handicapé peut s'exprimer par la voix de son synthétiseur. Le célèbre astrophysicien Stephen Hawking donne tous ses cours à l'université de Cambridge de cette façon. La synthèse offre également des services aux personnes mal-voyantes, en leur donnant accès à l'information écrite "en noir"16, à condition de coupler le synthétiseur à un logiciel de reconnaissance des caractères. 

Livre et jouets parlants :

Le marché du jouet a déjà été touché par la synthèse vocale. De nombreux ordinateurs pour enfants possèdent une sortie vocale qui en augmente l'attrait, particulièrement chez les jeunes enfants (pour qui la voix est le seul moyen de communication avec la machine). 

Communication homme-machine, multimédia :

A plus long terme, le développement de synthétiseurs de haute qualité (ainsi que la mise au point de reconnaisseurs fiables et robustes) permettra à l'homme de communiquer avec la machine de manière plus naturelle. L'explosion récente du marché du multimédia prouve bien l'intérêt du grand public en la matière. 

Recherche fondamentale et appliquée :

Enfin, les synthétiseurs possèdent aux yeux des phonéticiens une qualité qui nous fait défaut : ils peuvent répéter deux fois exactement la même chose. Ils sont par conséquent utiles pour la validation de théories relatives à la production, à la perception, ou à la compréhension de la parole.

9

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

6. Organisation générale du module de traitement du langage naturel : [3] L'organisation générale des opérations de traitement du langage réalisées par le synthétiseur est donnée à la Figure 5.

(Figure 5) : Le module de traitement du langage naturel d'un système De conversion texte parole. [3] Le module d'analyse morpho-syntaxique de la Figure 5 est lui-même composé de : Un module de prétraitement, qui joue principalement le rôle d’interface entre le texte (représentation linéaire) et la structure de donnés internes gérée par le synthétiseur. Ce module identifie toutes les séquences de caractères qui risquent de poser un problème de prononciation : nombres, abréviations, acronymes, expressions toutes faites, etc. et les transcrit éventuellement en toutes lettres. Un analyseur morphologique, qui a pour tâche de proposer toutes les natures possibles pour chaque mot pris individuellement, en fonction de sa graphie.

10

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

Un analyseur contextuel, qui considère les mots dans leur contexte, ce qui lui permet de réduire la liste des natures possibles pour chaque mot en fonction des natures possibles des mots voisins. Enfin, un analyseur syntaxique-prosodique, qui examine l’espace de recherche restant et établit un découpage du texte en groupes de mots qui permettra d’y associer une prosodie.

7. compréhension de parole et dialogue oral homme-machine : Après avoir analysé rapidement les principales difficultés de nature linguistique aux quelles doivent faire face les systèmes de traitement automatique de la parole, nous présentons dans ce paragraphe l’architecture générale, souvent modulaire, des systèmes conversationnels. L’architecture globale des systèmes de dialogue home-machine dans le domaine de recherche d’information est résumée Figure 6. Ces systèmes comprennent ainsi : [1] -un module de reconnaissance de parole dot le but est de transcrire le signal vocal donné en entrée en un message orthographe. Il est composé de deux composants principaux, le modèle acoustique et le modèle de langage. -un module de compréhension de la parole dont le but est d’extraire les informations pragmatiques (domaine d’application) rendant compte des actes de langage exprimés par l’utilisateur .On peut distinguer deux grandes dans étapes dans les processus visant à comprendre un énoncé : la compréhension hors contexte et la compréhension contextuelle. Ce module doit composer avec les phénomènes spécifiques de l’oral déjà évoqués mais aussi avec les erreurs de reconnaissance éventuelles. -un module de gestion de dialogue qui supporte le contexte dialogique et l’historique de l’interaction. Il initie les actions à effectuer suite aux requêtes des utilisateurs, que le sens de ces requêtes ait été correctement identifié ou non. Le gestionnaire du dialogue est non seulement un lien entre la base de données et l’utilisateur mais aussi le coordinateur de ce qui se passe, le reflet des capacités du système pour l’utilisateur. Il doit gérer l’échange « su l’instant et dans la duré » [7]. -un module de génération de la réponse qui convertit l’information à de livrer à l’utilisateur sous forme sonore (synthèse vocale), textuelle ou graphique. Le lecteur pourra toute fois utilement se reporter à pour un point complet sur les avancées réalésées dans ce domaine en liaison avec le traitement automatique des langues.

11

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

Parole

n meilleurs énoncés Reconnaissance

structeure sémantique Compréhension

Dialogueur

Synthèse

SQL

parole

réponse

BDD

(Figure 6) : Architecture générale d’un système de dialogue oral homme-machine [1]

12

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

8. Conclusion : L’homme créa des machine « intelligente » qui peuvent remplacer leur intelligence et résoudre les différentes problèmes de leur vie quotidienne parmi ces machines on trouve Les machines parlantes qui sont des machines qui peuvent parler et aussi dialogue avec les hommes, leur importance est très grand dans notre vie actuelle et en future dans plusieurs domaines comme nous avant vu précédemment comme le domaine de télécommunication et l’apprentissage des langues étrangères…etc.

13

LES MACHINES PARLANTES GENERALITE SUR L’IMAGE NUMERIQUE

Les références : [1]: Jérome Goulain,Stratégie d'analyse détaillée pour la compréhension automatique robuste de la parole, these doctorat, Unversité de Bretagne sud, 2002. [2] : jean véronis : informatique et linguistique 1, université de provenence (centre informatique pour les lettres et sciences humaines), (1999-2001). [3] : Thierry Dutoit : Introduction au Traitement Automatique de la Parole, Faculté Polytechnique de Mons, 2000. [4] : www.linguistes.com\phonetique\phon.html. [5] : www.irit.fr\diamant\Demos\prosodie.html. [6] : www.irit.fr\diamant\Demos\tts_accueil.html. [7]: Rosset.S : Stratégies et gestionaire de dialogue pour les systèmes d'iterrogation de base de données é reconaissance vocale, nancy France, 2000.

14

Related Documents

Machines Parlantes
December 2019 25
Parlantes
October 2019 27
Parlantes
October 2019 46
Machines
May 2020 27
Machines
May 2020 24
Arquitectura Parlantes
October 2019 25

More Documents from ""

Alphaslider
October 2019 9
November 2019 12
Machines Parlantes
December 2019 25
April 2020 9
Livre A Acheter
October 2019 13
November 2019 16