Nueva materia del plan de estudios de Letras Orientación en Lingüística
Modelos Formales No Transformacionales MFNT Por Daniel Romero y Fernando Balbachan
En realidad este artículo no trata de una nueva materia en sí -sepan ustedes disculpar nuestro artero recurso retórico de la captatio benevolentiae- sino, más bien, de un nuevo rumbo para una materia ya contemplada en el plan de estudios de la carrera de Letras. La orientación en Lingüística Formal de la carrera de Letras abarca cuatro materias: Teoría Léxica, Lingüística Chomskyana, Lógica y Modelos Formales No Transformacionales (MFNT). Históricamente, esta última materia –MFNT– ha venido apareciendo muy intermitentemente en la oferta de cursos. Es gracias a los esfuerzos del Departamento de Letras y de la nueva composición de la cátedra que a partir del segundo cuatrimestre de 2007 la materia vuelve a surgir con un nuevo rumbo, el cual apunta a una estrecha relación con una transdiciplina absolutamente novedosa en Argentina: la lingüística computacional. Ahora bien, muchos de ustedes se preguntarán qué es la lingüística computacional. Ensayemos una respuesta provisoria. La lingüística computacional es una disciplina que se ocupa de desarrollar ingenios o mecanismos informáticos para el Procesamiento de Lenguaje Natural (Natural Language Processing NLP en inglés). Como corolario de esta última afirmación, podemos inferir que se trata de una transdisciplina entre la lingüística y la informática. Desgraciadamente -y no tomen a mal la modalidad de este adverbio-, esta transdisciplina está dominada por informáticos en todo el mundo y por ahora existen pocos lingüistas en Argentina interesados en ella.
¿Alguna vez se preguntaron qué procesos formales hay detrás del lenguaje? ¿Conocen la interesante colaboración mutua que prestan lingüistas e informáticos? Cuando ustedes ingresan una búsqueda en Google y reciben 1.250.654 páginas en las que figuran las palabras ‘hot’ y ‘Paris Hilton’, cuando el programa Word les subraya en rojo todas las palabras de su documento sugiriéndoles que el idioma en el que están escribiendo es bengalí, -aunque hubiesen intentado escribir en el más cervantino castellano-, cuando el Babel Fish les traduce automáticamente su versión de Shakespeare al navajo, haciendo que Macbeth parezca el guión de un chicle Bazooka, todo eso son logros de la lingüística computacional. No hacemos lingüística anti-chomskyana sino post-chomskyana En la tradición de la lingüística formal, se le reconoce a la obra de Chomsky Estructuras Sintácticas (1957) un rol fundacional. Una de las principales tesis del modelo del ’57 se refiere a la complejidad de los lenguajes naturales, cuyas propiedades formales determinan una jerarquía de gramáticas en virtud de su poder expresivo. La irrupción de la Gramática Generativo-Transformacional del ’57 marcó un cambio de paradigma en la investigación lingüística. Sin embargo, a partir de la aproximación formal a las propiedades de los lenguajes naturales, han surgido diversas propuestas superadoras de la postura chomskyana inicial –el mismo Chomsky habría de dejar de lado el componente transformacional en sus modelos posteriores del ’81 (Principios y Parámetros) y ’90 (Programa Minimalista). Con la consolidación de la teoría estándar (década del ’60) la hegemonía chomskyana parecía indiscutible, pero en la década del ’70 surgen escisiones dentro del paradigma generativista que se focalizan más en las propiedades matemáticas y formales del lenguaje antes que en el problema chomskyano de la adquisición. El objetivo fundamental de este curso es centrarse en el relevamiento minucioso de las teorías gramaticales NO transformacionales que evolucionaron a partir de las primeras teorías chomskyanas y que representan una importante línea de investigación en Procesamiento de Lenguaje Natural, poniendo especial énfasis en las propiedades formales, poder expresivo y limitaciones de cada modelo en el estado del arte. Asimismo, se trabaja experimentando con las implementaciones de dichas gramáticas bajo la forma de parsers (analizadores) sintácticos, demostrando aplicaciones prácticas en español de los modelos teóricos y desarrollos adoptados por la industria. Mucha gente avezada en el campo de la lingüística puede sentir algún prurito al oír “NO transformacionales”. Y es que podrían considerar, con cierta suspicacia, que una materia como la nuestra presenta un punto de vista anti-chomskyano, lo cual acarrearía las diatribas y maldiciones de los acólitos del generativsmo, los cuales acecharían agazapados y diseminados por doquier. Craso error. De hecho, la orientación que la cátedra le ha impartido a la materia haría revolcar de alegría en su tumba al mismísimo Noam –¡Ah, cierto! perdón por la licencia poética: Noam Chomsky está vivito y coleando. Para aclarar sucintamente los tantos, digamos que en lingüística computacional existen tres grandes paradigmas de investigación: modelos conexionistas, modelos estadísticos y modelos simbólicos. El paradigma conexionista adscribe a un procesamiento paralelo e indiferenciado de datos a través de redes neuronales. Esto hace que se ubique epistemológicamente muy cerca de las ciencias cognitivas, aunque sus logros en el campo son limitados. Los modelos estadísticos parten del concepto de tabula rasa y de grandes corpora para analizar patrones de ocurrencia de eventos estadísticamente significativos y lograr así que la computadora “aprenda” (aprendizaje de máquina). Esto hace que su agenda resulte muy atractiva para la inteligencia artificial. Finalmente, el paradigma simbólico parte de una estructura apriorística de una gramática (dato) para procesar lenguaje mediante manipulación de símbolos. Es por eso que este paradigma representa una evolución de la concepción de Chomsky de las Gramáticas Independientes de Contexto (Context Free Grammar CFG en inglés).
Entonces, puesto que en el programa de MFNT trabajamos principalmente con los modelos simbólicos, aunque también con los estadísticos, afirmamos rotundamente que nosotros no hacemos lingüística antichomskyana sino post-chomskyana. Dale, hablale a la máquina Pero claro, no todo en la materia tiene que ver exclusivamente con sintaxis. En realidad, para la lingüística computacional, procesar lenguaje natural tiene más que ver, según los últimos modelos relacionales, con información modular disponible en forma temprana y un acceso intermodular compartido con procesamiento paralelo. Incluso, en el paradigma estadístico se habla de boostrapping y cues (pistas) como fenómeno de catalización de información típicamente pertinente a un nivel lingüístico en virtud de evidencia proveniente de otro nivel; todo lo cual nos habla de una integración de niveles no compartimentados. Por ejemplo, un modelo relacional en lingüística computacional para un agente comunicativo involucraría una disposición integrada de información intermodular, tal como se aprecia en la figura 2:
Así pues, este enfoque escapa al tradicional esquema de análisis por niveles, tan difundido por el estructuralismo, y propicia el interés por fenómenos más allá de la preeminencia de la sintaxis. Tal como se ve en la figura 3, la lingüística computacional extiende su campo de estudio más allá de las fronteras epistemológicas de la lingüística teorética, adentrándose en terrenos considerados tradicionalmente “extralingüísticos” como la representación de la información y el conocimiento de mundo.
El programa de MFNT contempla un interesante recorrido por la agenda actual de la lingüística computacional, tomando contacto con las problemáticas de la traducción automática y de la extracción de la información, campos de tecnología aplicada que exceden el mero procesamiento sintáctico y que necesariamente postulan modelos de lenguaje relacionales e integrados –no niveles “estamentales” al estilo estructuralista tradicional. Una cursada también innovadora Para estar a la altura de tanta innovación tecnológica, la cátedra se planteó la mejor forma de organizar una cursada amena, atractiva y que a la vez aprovechara al máximo todos los recursos tecnológicos que el campo de la lingüística computacional ofrece. Es así como dimos con una plataforma educativa web que propicia la interacción con el alumnado: el campus virtual de la facultad. Implementado en el año 2005, el campus virtual ofrece un espacio accesible a través de Internet para alojar contenidos para las clases, implementar foros de discusión con los alumnos y llevar a cabo un proceso pedagógico más personalizado y eficiente. En particular, nuestra materia requiere mucha interacción con los alumnos, de modo tal que juzgamos necesario e imprescindible el uso del campus virtual para MFNT. web site de la materia en el Campus Virtual de filo http://campus.filo.uba.ar/course/view.php?id=138 Entrar como Invitado El campus virtual de MFNT ofrece: 1) Dictado íntegro de la materia en el laboratorio de computación de la Facultad de Filosofía y Letras 2) Contenidos específicos y pormenorizados para el seguimiento de cada clase, disponibles con anterioridad (presentaciones powerpoint) 3) Planificación con temario y bibliografía detallada para cada clase 4) Bibliografía en versión electrónica 5) Realización de trabajos prácticos grupales on-line 6) Seguimiento de la evolución de la calificación final por parte de cada alumno, actualizada al instante luego de cada instancia de evaluación y resguardando la privacidad de la información
Foros de discusión grupales para fomentar la participación activa de los alumnos Canales de comunicación permanente entre docentes y alumnos para evacuar dudas y difundir novedades de la cursada 9) Material complementario y links a recursos relacionados con el campo de la lingüística computacional 10) Encuesta anónima on-line acerca de la materia (a ser completada por los alumnos al final de la cursada) 7) 8)
Acerca de la representatividad de la encuesta, cabe mencionar el rotundo éxito que esta materia ha significado en cuanto a matrícula, tomando en cuenta que se trata de una materia del último tramo de la orientación en Lingüística Formal. La primera camada de “lingüistas computacionales junior” de la cursada 2007 así lo atestigua: Inscriptos en actas 49
Alumnos Oyentes 5
Asistentes a 1º clase 34
Finalizaron la cursada 28
Promocionados
Encuestados
24
24
Las preguntas que constituyeron la Encuesta Anónima de MFNT fueron cuidadosamente diseñadas a los fines de abarcar cada aspecto del proceso didáctico-pedagógico. A continuación se presentan la encuesta y el análisis cuantitativo de los resultados.
Encuesta anónima para MFNT – Análisis cuantitativo de la cursada 2007 1. En términos generales cómo describirías la cursada Respuesta
Porcentajes
Me pareció interesante
37.5%
Me pareció muy interesante y aprendí mucho
9
25.0%
No fue lo que yo esperaba de esta materia Realmente un bodrio
TOTAL
6
33.3%
8
4.2%
1
3. Acerca de los contenidos y la dinámica de clase Respuesta
Porcentajes
Aunque complejos, fueron realmente bien explicados en clase
TOTAL
25.0%
Estuvieron al nivel de lo que yo esperaba para la materia
6
4.2%
Fueron muy complejos y no fueron bien explicados
1 25.0%
Ninguna opción me representa (voy a escribir un comentario)
6
45.8%
11
5. Acerca de los profesores (podés seleccionar más de una opción) Respuesta
Porcentajes
Lograron una cursada muy interesante y un clima ameno de trabajo
TOTAL
33.3%
Me incentivaron a aprender más del campo
50.0%
Ninguna opción me representa (voy a escribir un comentario)
25.0%
No estuvieron a la altura de lo que esperaba para una materia de la especialización
8
12 6
16.7%
4
7. Acerca de las prácticas de laboratorio Respuesta Me aburrieron
Porcentajes 4.2%
1
Me entusiasmó mucho poder ver implementaciones prácticas de los contenidos teóricos Ninguna opción me representa (voy a escribir un comentario)
TOTAL
70.8%
25.0%
17
6
Confiamos en que la valoración de la opinión de los alumnos y los buenos resultados obtenidos para la primera cursada de la materia puedan afianzar la continuidad de la misma y su lugar dentro del plan de estudios de la carrera de Letras. Por último, nos gustaría destacar que el programa de la materia está pensado como una introducción al campo de la lingüística computacional, por lo que no es necesario ningún conocimiento previo en informática. Si estos sesudos planteos acerca del lenguaje han captado su atención, les dejamos las direcciones de correo electrónico de los responsables de la materia, para que en caso de que tengan alguna inquietud nos escriban.
Acerca de los autores de la nota Daniel Romero es Profesor (1979) y Licenciado en Letras (1985) por la Universidad de Buenos Aires UBA. Se desempeña como Profesor Asociado de la Facultad de Filosofía y Letras de la Universidad de Buenos Aires UBA, a cargo de las cátedras de Lingüística Chomskyana, Modelos Formales No Transformacionales y Semántica y Pragmática y Profesor Titular de la Cátedra de Semiología del CBC de la UBA. Actualmente también lleva a cabo actividad docente en la Facultad de Humanidades y Ciencias de la Educación de la Universidad Nacional de La Plata UNLP, siendo Profesor Titular de las materias Lengua I, Lengua II y Lingüística General. E-mail:
[email protected]
Fernando Balbachan es Licenciado en Letras con orientación en Lingüística por la Universidad de Buenos Aires UBA (1999) y Magíster en Lingüística Computacional por Indiana University (2006). Se ha desempeñado como docente auxiliar en las cátedras de Lingüística General (FFyL-UBA) y Semiología (CBC-UBA). Ha trabajado en empresas de desarrollo de software en el ámbito privado desde 2000. Actualmente dicta clases en la cátedra de Modelos Formales No Transformacionales de la orientación en Lingüística en la Carrera de Letras de la Facultad de Filosofía y Letras (UBA). E-mail:
[email protected]