Υπολογιστική Γλωσσολογία Μαρία Μπαλτατζάνη
υπολογιστική γλωσσολογία
1
Επιστημονική Φαντασία; Τι μπορούν να κάνουν τα ανθρωποειδή ρομπότ στις κινηματογραφικές ταινίες και τα μυθιστορήματα επιστημονικής φαντασίας;
υπολογιστική γλωσσολογία
2
Επιστημονική Φαντασία; Πόσο μακριά είναι σήμερα η τεχνολογία από την εικόνα που παρουσιάζει η επιστημονική φαντασία; Τι πρέπει να καταφέρνει ένα ανθρωποειδές σε σχέση με τη γλώσσα;
υπολογιστική γλωσσολογία
3
O εικονικός Τζορτζ Ο Τζορτζ θεωρείται το πιο πετυχημένο από τα λογισμικά συζήτησης με ανθρώπους στο Ιnternet, γνωστά ως chatbots, δηλαδή ρομπότ για κουβέντα. Πρόσφατα εξελίχθηκε σε «άβαταρ», εικονικό χαρακτήρα με δική του φωνή και σύστημα αναγνώρισης ομιλίας, ώστε να ακούει αντί να διαβάζει τα λόγια των συνομιλητών του. http://person.jabberwacky.com/george
υπολογιστική γλωσσολογία
4
O εικονικός Τζορτζ •
• •
Στην οθόνη του υπολογιστή εμφανίζεται πλέον ως λεπτός, καραφλός άνδρας που φορά κίτρινα γυαλιά και πουλόβερ ζιβάγκο. Χαμογελά, κατσουφιάζει, χτυπά θυμωμένος το εικονικό τραπέζι και, όπως οι πραγματικοί άνθρωποι, είναι άλλες φορές ρομαντικός και άλλες απότομος. Οι γνώσεις του Τζορτζ προέρχονται από τις 10 εκατ. συνομιλίες που είχε ως σήμερα με χρήστες του Διαδικτύου -και τις θυμάται όλες. «Η μηχανή δανείζεται τη νοημοσύνη και τα λόγια των ανθρώπων με τους οποίους μιλά, και λίγο-λίγο μαθαίνει να δίνει σωστές απαντήσεις ανάλογα με τα συμφραζόμενα της συζήτησης» αναφέρει ο Ρόλο Κάρπεντερ, ειδικός στην τεχνητή νοημοσύνη και πατέρας του Τζορτζ. «Το ποσοστό των σωστών απαντήσεων ανεβαίνει συνεχώς καθώς μεγαλώνει η βάση δεδομένων» προσθέτει.
υπολογιστική γλωσσολογία
5
Απαιτήσεις • Να επικοινωνεί με ανθρώπους μέσω γλώσσας. Τι σημαίνει αυτό; – – – – – – –
Αναγνώριση λόγου Κατανόηση γλώσσας Παραγωγή γλώσσας Σύνθεση φωνής Ανεύρεση πληροφοριών Εξαγωγή πληροφοριών Συναγωγή συμπερασμάτων υπολογιστική γλωσσολογία
6
Σημερινή τεχνολογία • Αν και αυτά τα προβλήματα δεν έχουν επιλυθεί, η γλωσσική τεχνολογία που προαναφέραμε αναπτύσσεται αυτή τη στιγμή που μιλάμε και κάποιες από τις εφαρμογές είναι διαθέσιμες στην αγορά.
υπολογιστική γλωσσολογία
7
Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ) Natural Language processing (NLP) Αυτόματη παραγωγή και κατανόηση φυσικής γλώσσας: α. πληροφορίες από βάσεις δεδομένων μετατρέπονται σε ανθρώπινο λόγο β. δείγματα λόγου μετατρέπονται σε γλώσσα που μπορούν να διαχειριστούν οι υπολογιστές.
υπολογιστική γλωσσολογία
8
Κύριες εφαρμογές ΕΦΓ • • • • • • • • •
Αυτόματη δημιουργία περιλήψεων Εξαγωγή πληροφοριών Αυτόματη μετάφραση Αναγνώριση οπτικών χαρακτήρων Αναγνώριση φωνής Διαχείρηση προφορικών διαλόγων Απάντηση ερωτήσεων Σύνθεση φωνής από κείμενο Διόρθωση ορθογραφίας κειμένων
υπολογιστική γλωσσολογία
9
Δυσκολία; Προαπαιτούμενο για οποιοδήποτε εξελιγμένο σύστημα καταφέρει να επεξεργαστεί τη γλώσσα με κάποιο από αυτούς τους τρόπους είναι η βαθιά γνώση της γλώσσας
υπολογιστική γλωσσολογία
10
Απαραίτητες γνώσεις • Μορφολογίας, σύνταξης, σημασιολογίας, φωνητικής και φωνολογίας, πραγματολογίας και κειμενολογίας
υπολογιστική γλωσσολογία
11
Γιατί αυτά είναι δύσκολα • Δεν έχουμε σαφή και ολοκληρωμένη γνώση των προαναφερθέντων υποτομέων της γλωσσολογίας σε θεωρητικό επίπεδο • Υπάρχει πολυσημία • Δεν είναι σαφές πως θα μοντελοποιήσουμε τη γλωσσολογική γνώση σε πρακτικό επίπεδο υπολογιστική γλωσσολογία
12
Παραδείγματα 1 •
•
•
•
•
Δώσαμε τις μπανάνες στις μαϊμούδες επειδή ήταν πεινασμένες Δώσαμε τις μπανάνες στις μαϊμούδες επειδή ήταν παραγινωμένες Έχουν την ίδια σειρά λέξεων επιφανειακά. Όμως, πού αναφέρεται το ‘πεινασμένες’ και πού το ‘παραγινωμένες’; Οι προτάσεις δεν μπορούν να γίνουν κατανοητές χωρίς γνώση των ιδιοτήτων και συμπεριφοράς των αντικειμένων στον κόσμο.
υπολογιστική γλωσσολογία
13
Παραδείγματα 2 Πολυσημία Υπάρχει πολυσημία σε διάφορα επίπεδα: – Φθόγγοι Æ Φύλο, φίλο – Λέξεις-μορφήματα Æ • Παράτα θρανία και βιβλία και βρες μια δουλειά • Παρά τα θρανία κατάφερε να περάσει
– Σύνταξη Æ Είδα το κορίτσι με το τηλεσκόπιο – Σημασιολογία Æ Έκανα την πάπια (πόσες σημασίες έχει;) υπολογιστική γλωσσολογία
14
Παραδείγματα 2 Πολυσημία Οι φυσικοί ομιλητές επιλέγουν τη σημασία που ταιριάζει στο περικείμενο. Τα αυτόματα συστήματα πρέπει να είναι εφοδιασμένα με στρατηγικές (αλγορίθμους) που αντιστοιχούν σημασίες των πολύσημων λέξεων, φράσεων, κλπ με τα κατάλληλα περικείμενα.
υπολογιστική γλωσσολογία
15
Παραδείγματα 3 Τεμαχισμός λόγου – Αναγνώριση φωνής 1. Οι φθόγγοι επικαλύπτουν ο ένας τον άλλο Î Η μετατροπή του σήματος του λόγου σε διακριτούς φθόγγους είναι πολύ δύσκολη διαδικασία. 2. Δεν υπάρχουν σχεδόν καθόλου παύσεις μεταξύ λέξεων. Î Για να εντοπιστούν πρέπει να ληφθούν υπόψη γραμματικές και σημασιολογικές παράμετροι, όπως επίσης και το περικείμενο. υπολογιστική γλωσσολογία
16
Παραδείγματα 3. Τεμαχισμός λόγου – Αναγνώριση φωνής 3. Θόρυβος στο σήμα 4. Οι ομιλητές δεν αρθρώνουν πάντα καθαρά 5. Οι ομιλητές μπορεί να έχουν ξενική ή διαλεκτική προφορά 6. Οι ομιλητές μπορεί να έχουν πρόβλημα άρθρωσης
υπολογιστική γλωσσολογία
17
Παραδείγματα 3. Τεμαχισμός λόγου – Αναγνώριση φωνής Τα αυτόματα συστήματα αναγνώρισης λόγου πρέπει να έχουν τρόπο να ξεπερνούν όλες τις δυσκολίες που προαναφέρθηκαν (θορύβου, άρθρωσης, κλπ) για να επιτύχει η αναγνώριση.
υπολογιστική γλωσσολογία
18
Παραδείγματα 3. Τεμαχισμός λόγου – Αναγνώριση φωνής Υπάρχουν διάφορα προγράμματα αναγνώρισης. Διαφορές: • χρειάζονται ‘εκπαίδευση’ ή όχι • αναγνωρίζουν ένα χρήστη ή πολλούς • αναγνωρίζουν ρέοντα λόγο ή μεμονωμένες λέξεις • αναγνωρίζουν ομιλία με θόρυβο ή όχι υπολογιστική γλωσσολογία
19
Παραδείγματα 3. Τεμαχισμός λόγου – Αναγνώριση φωνής • Επιτυχία 98% για συστήματα που χρειάζονται εκπαίδευση, με συνεχή λόγο και για συγκεκριμένους ομιλητές • 80-90% για συστήματα χωρίς θόρυβο και για οποιονδήποτε ομιλητή • 50% για συστήματα με θόρυβο, όπως κινητά
υπολογιστική γλωσσολογία
20
Αναγνώριση φωνής Εφαρμογές • Τήρηση πρακτικών • Παραγωγή υποτίτλων σε ζωντανές μεταδόσεις σπορ, ειδήσεων κλπ • Υπαγόρευση κειμένων (δακτυλογράφιση) • Τηλεφωνική συνδιάλεξη με αυτόματα συστήματα (αεροπορικές, τηλεφωνικές εταιρίες,κλπ) υπολογιστική γλωσσολογία
21
Αναγνώριση φωνής Πρόγραμμα αναγνώρισης για τα ελληνικά: Λογοτυπογράφος – Πανεπιστήμιο Κρήτης http://www.telecom.tuc.gr/~ntsourak/logotypogra phos.htm
υπολογιστική γλωσσολογία
22
Σύνθεση φωνής Σύνθεση φωνής ονομάζεται η παραγωγή ανθρώπινης ομιλίας από υπολογιστή. Ο συνθέτης φωνής μπορεί να παράγει ομιλία • μετατρέποντας κείμενο σε ομιλία (text-to-speech (TTS)) • μετατρέποντας συμβολικές γλωσσολογικές αναπαραστάσεις (μεταγραφές) σε ομιλία • συρράπτοντας προμαγνητοφωνημένα τεμάχια ομιλίας από βάσεις δεδομένων. Τα τεμάχια μπορεί να είναι, ανάλογα με το σύστημα, φθόγγοι, ζεύγη φθόγγων, ή ακόμη και ολόκληρες λέξεις ή προτάσεις
υπολογιστική γλωσσολογία
23
υπολογιστική γλωσσολογία
24
Παράδειγμα • http://www.ilsp.gr/ekfonitis_plus_de mo.html • "Καλωσήρθατε στο Ινστιτούτο Επεξεργασίας του Λόγου." • "Σας παρουσιάζουμε το νέο σύστημα σύνθεσης φωνής από κείμενο για την Ελληνική γλώσσα."
υπολογιστική γλωσσολογία
25
Αγγλικά παραδείγματα • Φυσική φωνή • Συνθετική φωνή (χρησιμοποιεί κομμάτια φυσικής φωνής)
υπολογιστική γλωσσολογία
26
Αγγλικά παραδείγματα • 1951 • 1982 • 1985
υπολογιστική γλωσσολογία
27
Σύνθεση φωνής Κριτήρια ποιότητας των συνθετών φωνής: • η ομιλία που παράγει είναι κατανοητή; • η ομιλία που παράγει μοιάζει με ανθρώπινη; Οι συνθέτες επιτρέπουν σε άτομα με προβλήματα όρασης ή ανάγνωσης να ακούσουν κείμενα αντί να τα διαβάσουν. Χρησιμοποιούνται και σε: αυτοματοποιημένα συστήματα τραπεζών, τηλεφωνικών αεροπορικών κ.α. εταιριών, κινητά, παιχνίδια,...
υπολογιστική γλωσσολογία
28
Σύνθεση φωνής • Ελληνικοί συνθέτες φωνής: – Πανεπιστήμιο Πάτρας – Δημοσθένης (Π. Αθηνών) – Εκφωνητής (Ινστιτούτο Επεξεργασίας Λόγου) – Διάλογος (ιδιωτική εταιρία)
υπολογιστική γλωσσολογία
29
Γλωσσολογία κόρπους (βάσεων δεδομένων) Η μελέτη της γλώσσας μέσα από δεδομένα που έχουν συλλεχθεί είτε από γραπτά κείμενα είτε από ομιλία. Τα σώματα δεδομένων συλλέγουν κείμενα από εφημερίδες, περιοδικά και λογοτεχνία
υπολογιστική γλωσσολογία
30
Γλωσσολογία κόρπους (βάσεων δεδομένων) Χρησιμοποιούνται για 1. ανάπτυξη λογισμικού επεξεργασίας γλώσσας και για εφαρμογές όπως λεξικογραφία, αναγνώριση ομιλίας, μηχανική μετάφραση, κλπ. 2. στατιστική ανάλυση της γλώσσας (π.χ., κατανομή ήχων, επιτρεπτές σειρές όρων, επιτρεπτοί συνδυασμοί μορφημάτων, συχνότητα όρων, μορφημάτων κλπ.)
υπολογιστική γλωσσολογία
31
Γλωσσολογία κόρπους (βάσεων δεδομένων) Ελληνικά σώματα δεδομένων: – Εθνικός Θησαυρός Ελληνικής Γλώσσας (ΕΘΕΓ)™ του Ινστιτούτου Επεξεργασίας Λόγου (σώμα κειμένων) – Perseus Project, Tufts University (κλασσικά κείμενα) – CHILDES (δεδομένα από παιδική ομιλία)
υπολογιστική γλωσσολογία
32
Γλωσσολογία κόρπους (βάσεων δεδομένων)
Προς το παρόν δεν υπάρχει σώμα δεδομένων προφορικού λόγου για τα Ελληνικά
υπολογιστική γλωσσολογία
33
Μηχανική μετάφραση • Πρώτη χρήση υπολογιστών για επεξεργασία λόγου: δεκαετία 1940, μετάφραση στα Αγγλικά (πηγή:Ιαπωνικά, στόχος: Αγγλικά) • Αρχικά πίστευαν ότι είναι αρκετό να εφοδιάσουμε τον υπολογιστή με λεξικό της γλώσσας πηγής και λεξικό της γλώσσας στόχου.
υπολογιστική γλωσσολογία
34
Μηχανική μετάφραση Η απλή αντικατάσταση λέξεων από τη μια γλώσσα στην άλλη δεν είναι αρκετή. Δεν υπάρχει αντιστοιχία στις γραμματικές, στη δομή φράσεων, στους ιδιωματισμούς κλπ.
υπολογιστική γλωσσολογία
35
Μηχανική μετάφραση Τα αυτόματα συστήματα μετάφρασης είναι καλύτερα σε κείμενα με περιορισμένο και συγκεκριμένο λεξιλόγιο (π.χ. ορολογία από συγκεκριμένα επαγγέλματα, πρόγνωση καιρού, κλπ). Προς το παρόν τέτοια συστήματα δεν μπορούν να φτάσουν σε ποιότητα την ανθρώπινη μετάφραση, ιδιαίτερα σε κείμενα με καθημερινό λόγο.
υπολογιστική γλωσσολογία
36
Το τεστ του Τuring Alan Turing (1912-1954), ο πατέρας των υπολογιστών υποστήριζε σε ένα άρθρο του του 1950 ότι σε λίγα χρόνια οι υπολογιστές θα μπορούν να σκέφτονται. Επινόησε το Τέστ του Turing: Ένας άνθρωπος καλείται να αποφασίσει ποιος από δύο ‘συνομιλητές’ του (που βρίσκονται σε άλλο δωμάτιο και επικοινωνούν μαζί του με τηλέτυπο) είναι μηχανή, κάνοντάς τους ερωτήσεις. υπολογιστική γλωσσολογία
37
Προγράμματα επικοινωνίας • ELIZA
– Χ: Έχω άγχος – Ε: Πόσο καιρό έχεις άγχος; – Χ: Από τότε που άρχισα να γράφω το τρίτο κεφάλαιο – Ε: Μπορείς να μου πεις περισσότερες λεπτομέρειες; – Χ: Δεν μπορώ να σταματήσω να σκέφτομαι τα προβλήματα που θα συζητήσω – Ε: Έχεις προσπαθήσει; – Χ: Θα έλεγα όχι πραγματικά – Ε: Είσαι λίγο αρνητικός υπολογιστική γλωσσολογία
38
Προγράμματα επικοινωνίας • Καταλαβαίνει το πρόγραμμα τον συνομιλητή; Πώς απαντά; • Πώς θα μπορούσαμε να το κάνουμε να αποτύχει στο τεστ Turing; • ‘Ο φρίδος μου είναι ανκόνιστος’ • http://www-ai.ijs.si/eliza/eliza.html (ελιζα) • http://cogsci.ucsd.edu/~asaygin/tt/ttest. html#new(τεστ Turing)
υπολογιστική γλωσσολογία
39
Εφαρμογές • • • • •
Κλείσιμο ραντεβού σε νοσοκομεία Εισιτήρια σε ταξιδιωτικά γραφεία Πληροφορίες από οργανισμούς Τεχνική υποστήριξη και βοήθεια Πρόσβαση σε βάση πληροφοριών
υπολογιστική γλωσσολογία
40
Υπολογιστική μορφολογία • Εισερχόμενο: ακολουθία χαρακτήρων • Εξερχόμενο: μορφολογική ανάλυση • Εφαρμογές: χωρισμός λέξεων (δυσκολίες: hothouse), ορθογραφική
υπολογιστική γλωσσολογία
41
Αυτόματη περίληψη • Δημιουργία περίληψης κειμένων από υπολογιστή. Το προϊόν αυτής της διαδικασίας πρέπει να περιέχει όλα τα σημαντικά σημεία του αρχικού κειμένου. • Στο διαδίκτυο υπάρχει πληθώρα πληροφοριών που καταντά υπερβολική και μη διαχειρίσιμη. Αυτό κάνει την ύπαρξη των περιλήψεων απαραίτητη. Παράδειγμα της χρήσης των περιλήψεων είναι οι μηχανές αναζήτησης όπως το Google.
υπολογιστική γλωσσολογία
42
Ανεύρεση πληροφοριών • Διαδικασία: ο χρήστης πληκτρολογεί μία ερώτηση, π.χ. σε μια μηχανή αναζήτησης. Μπορεί να υπάρχουν διάφορες ιστοσελίδες που περιέχουν τους όρους της ερώτησης, κάθε μία με διαφορετικό βαθμό συνάφειας. • Τα περισσότερα συστήματα ανεύρεσης πληροφοριών υπολογίζουν το βαθμό συνάφειας και ιεραρχούν τα αποτελέσματα σύμφωνα με αυτό το βαθμό. Τα αποτελέσματα με τον υψηλότερο βαθμό παρουσιάζονται μετά στο χρήστη.
υπολογιστική γλωσσολογία
43
Οπτική Αναγνώριση Κειμένου OCR • Μηχανική ή ηλεκτρονική μετατροπή χειρόγραφου, τυπογραφημένου ή πληκτρολογημένου κειμένου σε κείμενο επεξεργάσιμο από υπολογιστή. • Για την ΟΑΚ γίνεται έρευνα που συνδυάζει αναγνώριση σχεδιοτύπων και τεχνητή νοημοσύνη. • Τα πρώιμα συστήματα χρειάζονταν εκπaίδευση. Τώρα υπάρχουν περισσότερο εξελιγμένα, «έξυπνα» συστήματα που μπορούν να αναγνωρίσουν τις περισσότερες γραμματοσειρές με μεγάλη ταχύτητα και ακρίβεια.
υπολογιστική γλωσσολογία
44
Εφαρμογές • Εφαρμογές της ΟΑΚ υπάρχουν στα PDA όπως τα Palm OS. Το ποσοστό ακρίβειας για χειρόγραφα είναι περίπου 80% με 90% για καθαρό γραφικό χαρακτήρα.
υπολογιστική γλωσσολογία
45