Proposition d’intégration des outils de tal pour une classe de fle, à travers le cas complexe du corpus d’archives de la presse de la première guerre mondiale

DE OLIVEIRA, ANA PAULA

Proposition d’intégration des outils de tal pour une classe de fle, à travers le cas complexe du corpus d’archives de la presse de la première guerre mondiale

DE OLIVEIRA, ANA PAULA

Dirigida por:

María Victoria Rodríguez Navarro Directora

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 29 de octubre de 2021

Tribunal:

Ana Teresa González Hernández Presidenta
Cristina Solé Castells Secretario/a
Fabrice Issac Vocal

Tipo: Tesis

Teseo: 690393 DIALNET

Resumen

INRODUCCIÓN I. EL TAL EN EL SENO DE LA DOCENCIA 1.1 Problemática 1.1.1. Itinerario de investigación inicial Esta tesis se inscribe en la enseñanza de la lengua francesa en la universidad y, más concretamente, en la enseñanza del francés como lengua extranjera (FLE) a los estudiantes hispanohablantes. Dos idiomas, una raíz común y, sin embargo, de manera subyacente, muchas dificultades porque más allá de la barrera del idioma viene la barrera lingüística inherente. Este lenguaje, en el sentido en que lo define Martinet, es decir, en su funcionamiento como instrumento estrictamente rudimentario de comunicación: "En el habla ordinaria, el "lenguaje" designa propiamente la facultad que tienen los hombres de oírse mutuamente por medio de signos vocales" (Martinet, 1980, p. 7), pero también en el sentido de que sirve también de "soporte del pensamiento", como indica también Martinet. En efecto, cada individuo tiene una relación estrecha y a veces incluso ambigua con cada una de las palabras que componen nuestra lengua. Debido al hecho de que soy profesora de francés como lengua extranjera desde hace varios años en la Universidad de Salamanca en España, pero también antigua alumna del laboratorio LDI (Laboratoire Lexiques, Dictionnaires, Informatique) de la UFR de París XIII Sorbona Norte, y actualmente doctoranda en la Universidad de Salamanca y en el TTN LAB' (Laboratorio de Textos, Teorías, Numéricos, Estudios Interactivos de Lenguas) de París XIII Sorbona Norte, siempre he centrado mis estudios e investigaciones en torno a tres áreas principales: los idiomas, la didáctica y las nuevas tecnologías, porque siempre me ha parecido que estos tres ámbitos se atraían mutuamente y sólo podían ser significativamente complementarios. Para mí, las lenguas siempre han sido el caldo de cultivo de muchas reflexiones, ya sea a nivel de la primera lengua o de la traducción. Estas diferentes especialidades siempre han despertado mi curiosidad, sin duda por la complejidad y, por tanto, el reto de interpretar el lenguaje o traducir; Es decir, plasmar una palabra en su significado más cercano o exacto, a pesar de algunos elementos desconocidos o equívocos, porque como muy bien señala Isabel Rivero Vila, "En un momento en que el planeta se globaliza y los intercambios se multiplican, la posibilidad de malentendidos se incrementa y la necesidad de un aprendizaje de la lengua ligado a la competencia sociocultural es fundamental" (Rivero Vilá, 2011: 37). Sabiendo que cada palabra utilizada puede ser en sí misma cuestionada, puesto que ya transmite intrínsecamente una parte íntima del autor, sus concepciones, ideales, principios, pero también su cultura y tradiciones, la ambigüedad aumenta. Como ya dijo Saussure: "Alguien pronuncia la palabra desnudo: un observador superficial estará tentado de ver en ella un objeto lingüístico concreto; pero un examen más atento llevará a encontrar en ella tres o cuatro cosas perfectamente diferentes, según la forma en que se considere [...] Lejos de que el objeto preceda al punto de vista, parecería que es el punto de vista el que crea el objeto" (Saussure, 1978, p. 23) Esto nos lleva evidentemente a la arbitrariedad del signo de Saussure, que subraya la perspectiva del "punto de vista" y, por tanto, el aspecto relativo del significante y del significado "[...] la elección que tal o cual fragmento acústico requiere para tal o cual idea es perfectamente arbitraria. No hay ninguna relación causal lógica o natural que influya en el sistema lingüístico desde el exterior: la unión de la idea y el sonido es radicalmente arbitraria" (Saussure, 1985, p. 18). Esta misma reflexión sobre el signo la recoge Carmen García Cela en sus comentarios sobre Saussure: "Todo el mecanismo del lenguaje depende de él [la linealidad]. A diferencia de los significantes visuales (señales marítimas, etc.) que pueden ofrecer complicaciones simultáneas en varias dimensiones [...]" (García Cela, 2001). La arbitrariedad del signo es, además, la piedra angular de la lingüística de Saussure y la base de todas sus investigaciones en semiología, en las que se esfuerza por discernir los distintos procesos de comunicación utilizados en la comunicación para convencer e influir. Tomaremos como definición de semiología la propuesta por Martinet: "En el uso común no lingüístico, los términos signo, rasgo y símbolo no están bien definidos y se utilizan indistintamente para designar fenómenos de órdenes radicalmente diferentes. El denominador común de todos los usos es el hecho de que un elemento A representa a un elemento B o sirve de sustituto de éste; la ciencia que estudia los problemas relativos a la representación se llama semiología o semiótica" (Martinet, 1975, p. 354). En la misma línea, Michel Collot, en su obra La matière émotion, también intenta describir este vehículo directo e intrínseco que existe entre el hablante y la palabra. Una especie de vínculo tan profundo que resulta estar en consonancia con lo más íntimo de cada persona: "De cada objeto todos poseemos "una idea profunda" formada por la incesante sedimentación de las "impresiones" que hemos "recibido" de él desde la infancia" (Collot, 1997, p. 49). Esta teoría coincide también con la del escritor y filólogo Victor Klemperer, que realizó numerosas investigaciones sobre el lenguaje y más concretamente sobre el del Tercer Reich y denunció, en muchas ocasiones, esta parte del inconsciente ligada al lenguaje: "Siempre se cita esta frase de Talleyrand, según la cual el lenguaje estaría ahí para ocultar los pensamientos del diplomático. Pero es exactamente lo contrario. Lo que alguien quiere ocultar deliberadamente a los demás o a sí mismo, y también lo que lleva dentro de sí inconscientemente, el lenguaje lo saca a la luz" (Klemperer, 1996, p. 35). En definitiva, la palabra saca a la luz una parte del inconsciente del hablante sin que éste sea capaz de darse cuenta. Por eso el lenguaje es tan complejo y extraordinariamente ambiguo. Las palabras están llenas de sentido y significado, de ahí nuestra perpetua e insaciable búsqueda de la comunicación porque, como señala L'Haire, "[…] en general, al comunicarse, los seres humanos negocian constantemente el significado, por ejemplo, a través de aclaraciones durante la conversación" (L'Haire, 2011). Entonces, ¿cómo abordar esta dificultad, cómo concienciar sobre el uso y las consecuencias de cada palabra en nuestro idioma? Dominar la primera lengua y sus diferentes matices para poder dominar la segunda a su vez, o incluso simultáneamente. Estos son los problemas y retos a los que se enfrentan los filólogos cada día. Por lo tanto, nos pareció importante, en esta tesis, explorar a fondo todos los métodos disponibles para consolidar las enseñanzas de la primera lengua con el fin de transmitirlas de manera inteligible y pragmática. 1.1.2. Aplicación de una metodología En mi contexto profesional, en las distintas clases en las que he podido evolucionar y he visto evolucionar, he tenido la suerte y el placer de constatar que, a lo largo de las últimas décadas , los idiomas y las nuevas tecnologías se han perfeccionado conjuntamente en el ámbito de la enseñanza, lo que ha sido muy favorable tanto para el profesorado como para el alumnado. Sin embargo, me parece que, aunque estos campos son hoy en día complementarios, no van necesariamente de la mano, al menos no en el día a día de nuestro sector. Por lo tanto, nos pareció interesante y necesario cuestionar la importancia de una posible dualidad entre la lingüística y la informática en el seno de nuestra enseñanza de idiomas. En esta tesis, examinaremos las humanidades digitales, explotaremos sus mecanismos y automatismos para poder compartirlos e implementarlos en el día a día de profesores y alumnos, porque creemos que percibir sus ventajas en nuestra profesión será sinónimo de avances y mejoras. Esta tesis se inscribe, por tanto, en esta reflexión y problemática de investigación: ¿puede la ingeniería informática aportar un avance significativo en el ámbito de la enseñanza de idiomas? A lo largo de esta tesis, intentaremos responder a esta cuestión pedagógica y didáctica, explotando estadística y lingüísticamente un corpus importante. Un corpus importante, sobre todo por su tamaño. Desambigüemos el término "importante" porque aquí debe tomarse en los dos sentidos del término, es decir, tanto en términos de masa voluminosa de información como en términos de contenido memorable. En efecto, la elección de nuestro estudio se basa en los artículos de prensa de los periódicos franceses en el momento de la proclamación de la Gran Guerra. Será un estudio comparativo de cuatro líneas editoriales para contrastar la información y tratar de garantizar la visión de conjunto y la interpretación de los discursos de la época a través de la lectura automática de los mismos. Por último, precisemos que esta elección del corpus germinó en nuestras mentes cuando notamos, durante las clases y a lo largo del año, y en particular con las generaciones más jóvenes, que nuestros alumnos dudaban u olvidaban las fechas de las dos guerras mundiales o de los principales acontecimientos históricamente cruciales. Esta observación nos preocupó y por ello pensamos e investigamos en la enseñanza de la lengua sobre un corpus cuyo contenido, tanto lingüístico como histórico, pudiera aportar conocimientos y bases sólidas a los alumnos que comparten un mismo espacio común, que es la Unión Europea. De hecho, se trataba de pensar en un corpus que pudiera garantizar el aprendizaje no sólo a nivel lingüístico, sino también de forma transversal, es decir, a nivel cultural e interpersonal. Además, numerosos estudios han demostrado que el aprendizaje a partir de un corpus es beneficioso y que, desgraciadamente, todavía se utiliza muy poco en Francia y en todos los países europeos que no son anglosajones. Como señala Boulton, "el uso directo de los corpus por parte de los profesores y, sobre todo, de los alumnos no está tan avanzado como sugieren muchos artículos [...]. El retraso es aún mayor en Francia, en parte por razones culturales [...]" (Boulton, 2007). Sin embargo, es cierto que en las últimas décadas se ha abierto el camino hacia el desarrollo de métodos de aprendizaje automático y, por tanto, de forma subyacente, de corpus. Nuestro proyecto consistirá en implantar más enseñanza basada en corpus auténticos que puedan ser explotados no sólo por el profesor, sino también directamente por los alumnos. Como ya hemos señalado, en el mundo anglosajón estas prácticas son ya habituales y se denominan comúnmente DDL (Data-Driven Learning), que consiste en la explotación directa de los datos de un corpus por parte del alumno. Afortunadamente, como también señala Molina en su reciente trabajo sobre el Aprendizaje de las Lenguas Asistido por Ordenador (ALAO), "el trabajo basado en corpus se ha hecho cada vez más popular en el campo de la lingüística y la didáctica de las lenguas en los últimos años" (Molina, 2017). Nuestro objetivo será proporcionar un entorno didáctico en el que el tratamiento de corpus pueda ser asistido por máquinas para realizar análisis complejos y precisos de un conjunto de textos de gran tamaño con el fin de extraer los diferentes fenómenos lingüísticos, es decir, todas las locuciones, términos y expresiones fijas de una lengua como la fraseología, o para realizar estudios comparativos. Porque, como explica Chomsky, al poder plantear el lenguaje como un conjunto finito, su procesamiento automatizado es ejecutable: "Consideramos que un lenguaje es un conjunto (finito o infinito) de oraciones, cada una de ellas de longitud finita y construida por concatenación en un conjunto finito de elementos. Esta definición incluye tanto los lenguajes naturales como los artificiales en la lógica y en las teorías de la programación informática" (Chomsky, 1971, p. 15). Nuestra investigación se centrará precisamente en este posible interés que el uso de herramientas de Procesamiento Automático del Lenguaje podría aportar dentro de una clase de FLE para alumnos de nivel intermedio o avanzado (B1, B2, C1, C2). Diferentes análisis automáticos y exhaustivos sobre los diferentes aspectos morfológicos, sintácticos y semánticos del lenguaje para dar cuenta del "poder" de las palabras y concebir que puedan ser la más noble pero también la más temible de las armas porque la frontera entre la palabra y la ideología puede resultar ser imperceptible. Definimos el término ideología precisamente en el sentido en que Macherey lo define en su exhaustivo análisis de la ideología y la palabra, es decir, como un término cuya connotación puede ser tanto negativa como positiva: La ideología es pensamiento en la medida en que se presenta como pensamiento del otro, ya sea este otro el adversario que todo individuo políticamente comprometido combate, ya sea el otro grupo contra el que un grupo determinado define y defiende sus propias opciones, o si es el otro en el sentido más general de la alteridad que la sociedad incluye en su constitución, lo que le prohíbe ser considerada como una totalidad que existe de forma homogénea, y que por lo tanto tiene desde el principio a la manera de un dato primario que no puede ser puesto en cuestión de su propia identidad (Macherey, 2008). Se trata, pues, de proponer a los alumnos que mejoren sus competencias lingüísticas, pero también sus herramientas lingüísticas, discursivas o persuasivas, para avanzar hacia una reflexión sobre el lenguaje, su precisión, pero también su destreza y su capacidad de seducción y, por tanto, por extensión, de influencia negativa o positiva. En definitiva, se trata de ofrecer a nuestros alumnos un aprendizaje de la lengua que sea a la vez completo y complejo porque, como ya subrayó Chanier, "entre los investigadores y los profesionales de la adquisición de la lengua está bien establecido que hablar una lengua con fluidez no puede reducirse a la adquisición de la competencia gramatical. Dado que la lengua y la comunicación son inseparables, se trata de una competencia comunicativa que debe adquirirse" (Chanier, 1995). 1.1.3 La sostenibilidad de las lenguas en la era digital En primer lugar, es fundamental recordar que las nuevas tecnologías son actualmente sinónimo de futuro y de progreso, y que se están introduciendo tanto en nuestras universidades como en el conjunto de nuestras carreras, para que sean eficaces y de calidad. Como la sostenibilidad de los idiomas depende ahora de la fusión con la comunicación digital, era urgente adaptar nuestra oferta a esta creciente demanda. Las humanidades por sí solas ya no pueden pretender tener un futuro seguro; la tecnología de la información es, por tanto, la garantía de una nueva longevidad para ellas. La comunicación digital es ahora el nuevo medio viable y sostenible de nuestra educación humanística porque está en consonancia con los nuevos conceptos de nuestro mundo moderno. En el contexto de las universidades, el especial interés por las nuevas tecnologías se reflejó también en los medios de comunicación y, especialmente, en la prensa escrita, que insistió en la importancia de promover e incorporar este bien a nuestra vida cotidiana, ya que las ventajas eran numerosas y diversas, al ser el principal vehículo de contacto con el exterior y con los nuevos empleos que implican la informática, Internet y los nuevos conocimientos. Era también, y sobre todo, el futuro de nuestras universidades al convertirse en nuestro nuevo medio. Las cartas, los idiomas y todos los demás tipos de comunicación han sobrevivido y se han perfeccionado en gran medida gracias al medio digital. Por lo tanto, es esencial dominar las nuevas herramientas de comunicación e intercambio. A lo largo de las últimas décadas, diversos agentes académicos y económicos han cuestionado la importancia de las nuevas tecnologías. Por ello, es fundamental que se adapten lo antes posible a estos cambios si no quieren perder resultados. Además de los impresionantes avances en las nuevas competencias que se han incorporado rápidamente a nuestro sistema educativo, también es importante reaccionar lo antes posible y adaptar nuestro sistema educativo a esta nueva globalización. En la era de Internet, es esencial que nuestra formación humanística acepte e integre plenamente el concepto de informática, ya que es totalmente complementario e indispensable. Cabe destacar que muchas de nuestras universidades han mantenido voluntariamente el perfil humanista que ha caracterizado nuestra tradición y conocimiento a lo largo de los años. De este modo, lo que podría haberse percibido como una contradicción se ha convertido en nuestra baza y nuestro mayor reto. Recordemos que el dominio del aprendizaje instrumental de la lengua extranjera y sus habilidades didácticas ha mantenido una estrecha relación con una formación primaria en filología hispánica, latín y otras lenguas modernas. Se ha tratado de conservar los estudios de historia cultural, de historia literaria y de historia de la lengua en el núcleo de la formación francesa, por ejemplo, pero también de lingüística sincrónica y diacrónica, junto a ciertas perspectivas comparativas de desarrollos más recientes, como los estudios culturales comparados, la relación entre literatura y cine, la lengua y los medios de comunicación. Por no hablar de la creciente atención al conjunto de la Francofonía. De hecho, las comisiones que elaboran los planes de estudio han mantenido expresamente este perfil humanista, en el convencimiento de que proporciona la mejor formación lingüística e intelectual para los futuros profesores, traductores, agentes culturales, etc. Sin embargo, la formación tecnológica es ahora la condición necesaria para que la formación humanística se incorpore y se integre en el mercado laboral actual. Este nuevo activo, además de ser compatible con la formación filológica, es también la condición necesaria para su supervivencia en un mundo en el que el formato y la naturaleza de los medios de conocimiento han evolucionado claramente. El filólogo, el profesor o el traductor deben, pues, dominar estas nuevas herramientas porque representan una ayuda innegable e indispensable. En efecto, la programación informática permite realizar muchos análisis muy complejos en unos pocos clics, sin posibilidad de error. Las bases de datos informáticas, por ejemplo, permiten unir varias lenguas para facilitar y perfeccionar las traducciones. Un buen conocimiento de Internet también permite explotar materiales de enseñanza y aprendizaje más interactivos para alumnos mucho más acostumbrados y receptivos a las nuevas tecnologías, pero también crear vínculos e intercambios internacionales, tanto humanos como comerciales, lo que supone una ventaja considerable para la expansión de las regiones, los territorios y el mundo en general. Además, puesto que las universidades son cada vez más exigentes, deben estar al tanto del mercado laboral para adaptarse a la oferta de trabajo. En consecuencia, deben aprovechar este auge para formar a sus alumnos en un aspecto profesional y de demanda real en el día a día. Hoy en día las universidades deben estar en constante sintonía con el mundo exterior, pues de lo contrario se perderán, especialmente en el caso de España, donde la tasa de desempleo está alcanzando niveles alarmantes, mientras que ciertos puestos para nuevos perfiles profesionales (informáticos, expertos en redes sociales, diseñadores web, etc.) no se cubren por falta de personal competente. Estos resultados son extremadamente frustrantes, pero las universidades pueden remediar estas deficiencias. Cabe destacar que las universidades privadas ya han orientado su oferta a cursos con un alto grado de empleabilidad. En otras palabras, hay que cambiar de actitud en cuanto a la estanqueidad de los planes de estudio, ya que ahora es necesario que la lingüística integre la informática y viceversa. Al igual que la ciencia ha abierto sus puertas a lo abstracto y a lo desconocido para poder cuestionarse y superarse continuamente, ahora se trata de compatibilizar y armonizar los distintos sectores para ser más versátiles y universales. Para ello, y para que la formación filológica sea aplicable y aplicada, se requiere una formación adicional en línea con las herramientas informáticas. Por ello, los nuevos métodos de enseñanza y análisis de la lengua, cada vez más precisos y eficaces, nos han llevado a profesores e investigadores a las Tecnologías de la Información y la Comunicación (TIC), ya que para todo filólogo representan un punto crucial entre una nueva era tecnológica y la posible perpetuación y explotación de la lengua escrita. 1.2 De las TIC al TAL 1.2.1. Digital y didáctica Recordemos que a finales del siglo XX y principios del XXI, lo que permitió que la lengua y la escritura se reinventaran y crecieran aún más fue la fusión entre los ordenadores y los textos. En efecto, son innumerables los textos que se han digitalizado o incluso mecanografiado completa y manualmente, lo que ha permitido, por extensión, archivar y consultar a golpe de ratón toda una serie de documentos y recursos muy valiosos para la investigación y la humanidad en su conjunto. Este nuevo espacio de aprendizaje, conocido como TIC, que se ha implantado con fuerza en las escuelas y centros educativos desde hace una década, nos lleva ahora de forma natural al TAL (Tratamiento Automático de las Lenguas) y a las múltiples posibilidades que ofrece, ya que es, en cierto modo, la extensión y profundización de estas nuevas tecnologías. Una especie de nueva cohabitación, necesaria e inevitable, entre la lingüística y la informática. Recordemos la primera definición de TAL dada por Fuchs en 1993: [...] El procesamiento automático del lenguaje se ocupa de los datos lingüísticos (textos) expresados en un lenguaje (natural), y para poder procesar estos datos de forma automática, es necesario poder explicitar las reglas del lenguaje, representarlas en formalismos operativos y computables e implementarlas con la ayuda de programas (Fuchs, 1993, p. 13) Señalemos que, aunque estos dos campos han estado al lado durante mucho tiempo, este reciente entusiasmo por las nuevas tecnologías y, en particular, por la herramienta informática, ha dado lugar a nuevas cuestiones sobre las que varios especialistas se cuestionan, como explica el profesor e investigador Fabrice Issac "El uso de la informática en un marco lingüístico es muy antiguo [...] El uso masivo de la informática parece crear, de hecho, un cambio en el perfil de ciertos actores de la investigación lingüística: ¿soy informático o lingüista?" (Issac, 2018: 1). En definitiva, una dualidad de dos entidades contiguas que plantean constantemente nuevos retos y problemas. Una cuestión tanto más importante cuanto que va a configurar o incluso condicionar la pertinencia de las investigaciones y los resultados para garantizar una interpretación correcta. El lingüista dispone ahora de una herramienta muy poderosa, la de la informática, pero no debe en ningún caso desvirtuar su función principal. Estas herramientas proporcionan al lingüista numerosas "pistas" de lectura, que luego debe analizar escrupulosamente desde su propio ámbito científico. Como señala J-M Molina, "hay que admitir que la informática y el TAL pueden ayudar a resolver un buen número de problemas relacionados con la lingüística con porcentajes de éxito bastante significativos, pero siempre será necesario el trabajo del lingüista para verificar la salida de la máquina." (Molina, 2015, p.54). A raíz de esto, nos planteamos la siguiente cuestión: ¿Es el TAL una ciencia a caballo entre la informática y la lingüística? Y si es así, ¿dónde debe ubicarse y cómo debe definirse su papel dentro de la enseñanza? El propio profesor Fabrice Issac intenta responder a esta pregunta evocando la función del lingüista computacional: "El reto es, por tanto, nombrar y describir el modo en que la informática aporta nuevas herramientas y, por tanto, nuevos puntos de vista teóricos sobre la lingüística" (Issac, 2014: 13). Es evidente que el TAL es una herramienta extremadamente poderosa para un filólogo apasionado por "diseccionar" un texto para interpretarlo y comprenderlo mejor, ya que el TAL ofrece la posibilidad de realizar análisis complejos y precisos sobre múltiples corpus de gran tamaño. En un futuro próximo, podría convertirse en una herramienta indispensable para ayudar al filólogo y al profesor en sus tareas cotidianas de análisis del discurso porque los resultados son reveladores, como indica el lingüista Robert Martin, "[...] el análisis automático obliga a la formalización, es decir, a las formulaciones explícitas y unívocas [...] Sometida a la automatización, la descripción lingüística gana en rigor y a veces en pertinencia" (Martin, 2001). El TAL es, por tanto, un poderoso instrumento que se define como "multidisciplinar ya que puede reunir a lingüistas, informáticos, lógicos, psicólogos, documentalistas, lexicólogos y traductores". En resumen, no menos de siete campos están continuamente correlacionados gracias a la Inteligencia Artificial (IA), como señala la Enciclopedia Universalis de Francia. La Inteligencia Artificial es cada vez más eficaz y ha permitido crear diccionarios electrónicos, establecer traducciones lingüísticas automáticas o semiautomáticas, correctores ortográficos, resúmenes automáticos y hacer posible el acceso inteligente a la información, es decir, al tratamiento automático y rapidísimo de los datos. En el ámbito del TAL, las primeras investigaciones se centraron en el análisis de las lenguas naturales, en particular la traducción, entre 1949 y 1965. Hay que señalar que este interés se debió principalmente al contexto histórico en el que se produjo, es decir, durante la Guerra Fría en 1950, ya que el principal objetivo de los estadounidenses en aquella época era acceder a todos los contenidos producidos en ruso. Basándose en las teorías de Shannon, los estadounidenses invirtieron sumas considerables en el desarrollo de la traducción automática porque, como señala Bouillon, era "una tarea fácil que no debería requerir otras técnicas que las desarrolladas con éxito para descodificar mensajes codificados" (Bouillon, 1998, p. 9). Este entusiasmo exponencial por el TAL condujo, a principios de los años 50, al primer congreso internacional sobre traducción automática (TA), organizado por W. Weaver en el centro de IBM en Georgetown en 1952. Esta conferencia fue la primera exposición pública de un sistema automatizado inteligente capaz de traducir del ruso al inglés. Los años de investigación e inversión en este campo continuaron. Tanto es así que en 1964 el gobierno estadounidense creó un comité especial para evaluar los resultados de la TA. Por desgracia, los resultados fueron decepcionantes y el informe del Comité Asesor de Procesamiento Automático del Lenguaje (Automatic Language Processing Advisory Committee - ALPAC) calificó la traducción automática de utópica. Como dice Kübler, "este informe concluye que la TA es más lenta, menos eficiente y dos veces más cara que la traducción por humanos" (Kübler, 2007). Sin embargo, a finales de los años 50 y 60, las investigaciones del lingüista estadounidense N. Chomsky despertaron nuevas esperanzas en el TAL. Como se recoge en su libro "Language and Thought", publicado en Nueva York en 1968, donde expresa sus impresiones sobre la posición de la lingüística matemática: La lingüística matemática parece estar hoy en una posición totalmente favorable, entre los enfoques matemáticos de las ciencias sociales y fisiológicas, para desarrollarse no sólo como mera teoría de los hechos, sino también como estudio de los principios y estructuras altamente abstractos que determinan el carácter de los procesos mentales humanos. En este caso, los procesos mentales en cuestión son los que intervienen en la organización de un dominio específico del conocimiento humano, a saber: el conocimiento del lenguaje. (Chomsky, 1968, p.107) Durante estos años, la experiencia de Chomsky como lingüista marcó un punto de inflexión en el progreso del TAL al proponer, a través de sus libros "Syntactic structures" - 1957 y "Aspects of one Theory of Syntax" - 1965, una teoría del lenguaje basada en dos niveles de representación: la estructura profunda y la estructura superficial. La estructura profunda según Chomsky se basa, por un lado, en la sintaxis y en la serie de reglas que determinan los sintagmas y otras unidades básicas de la oración, es decir, las reglas de "inserción léxica", que permiten hacer coincidir las palabras del léxico con las categorías gramaticales. La estructura superficial, en cambio, se basa en las reglas de la semántica y las reglas de la fonología. Chomsky define estos dos conceptos de la siguiente manera: "el componente sintáctico de una gramática debe caracterizar para cada frase una estructura profunda que determina su interpretación semántica y una estructura superficial que determina su interpretación fonética" (Chomsky, 1971: 31). Como explica Chomsky con más detalle en su obra fundamental Lingüística cartesiana, se trata de discernir la lingüística profunda de la superficial, como si el lenguaje tuviera dos capas: "Podemos distinguir entre la 'estructura profunda' de una frase y su 'estructura superficial. La primera es la estructura abstracta básica que determina su interpretación semántica; la segunda, la organización superficial de unidades que determinan la interpretación fonética y que está relacionada con la forma física de la expresión real" (Chomsky, 1966, p.78). En su libro "Syntactic Structures", N. Chomsky propone aplicar este proceso de separación dentro de la máquina y disociar estos dos estratos porque es en el nivel de la estructura superficial, es decir, en lo que respecta a la organización superficial de las unidades, donde la máquina es capaz de identificar y reconocer los elementos de un corpus. Como explica Chomsky, en el caso de que una gramática esté previamente implementada en la máquina, se obtiene un reconocimiento sintáctico de las unidades. Es ahí donde Chomsky desglosa las distintas etapas del reconocimiento automático. En la primera etapa (I), inserta el texto en la máquina (entrada) y luego extrae una gramática del mismo (salida). Esto es lo que él llama el procedimiento de descubrimiento, en el que utiliza consideraciones de probabilidad para distinguir automáticamente las oraciones gramaticales de las no gramaticales. Las llamadas oraciones gramaticales son aquellas que son heterogéneas: "La diferencia radica en que la noción de 'corrección' abarcaba cosas bastante heterogéneas" (Ruwet, 1966: 29). En una segunda etapa, reproduce la misma operación, pero introduce tanto el corpus como la gramática que obtuvo en la primera operación. La máquina reconocerá entonces lo que se le ha enseñado y distinguirá entre las llamadas frases gramaticales con "sí" y las no gramaticales con "no", esto es lo que él llama el procedimiento de decisión. Por último, introduce en la máquina el corpus y varias gramáticas obtenidas en el procedimiento de decisión a partir de otros corpus para que la máquina elija, entre estas gramáticas, la que sea relativamente mejor, es lo que denomina procedimiento de evaluación. Citamos aquí el extracto en el que Chomsky define estas diferentes fases: La figura (36 I), representa una teoría concebida como una máquina con un corpus en la entrada y una gramática en la salida; es por tanto una teoría que proporciona un procedimiento de descubrimiento. (36 II) es una máquina que tiene una gramática y un corpus como entrada y las respuestas "sí" y "no" como salida, indicando si la gramática es la correcta o no; este es el esquema de una teoría que proporciona un procedimiento de decisión. (36 III) representa una teoría con las gramáticas de entrada G1, G2 y el corpus y la gramática de salida G1 o G2 como la mejor: esta teoría proporciona un procedimiento de evaluación. (Chomsky, 1969, p. 57) Concluimos que Chomsky, al exponer su marco de la teoría generativa, propuso un estudio del proceso lingüístico a través del estudio metódico del sistema sintáctico. Esto ayudó en gran medida al desarrollo del Procesamiento Automático del Lenguaje porque fue la primera vez que se pudo ayudar a la máquina a identificar el significado de las palabras a través del sistema sintáctico. Esto se justifica por el hecho de que Chomsky consideró que era más concebible aislar esta área que otro fenómeno cognitivo: Es natural [...] suponer que la interpretación semántica de una frase está determinada por el contenido semántico intrínseco de los elementos léxicos, y por la forma en que éstos se relacionan entre sí, en el nivel de la estructura profunda. Asumir esto [...] es decir que son las estructuras profundas las que determinan la interpretación semántica, bajo el efecto de las reglas de interpretación semántica. En esta teoría, pues, se requiere que las estructuras profundas cumplan varias condiciones. En primer lugar, determinan la representación semántica. En segundo lugar, se convierten en estructuras superficiales bien formadas mediante transformaciones gramaticales. Por último, satisfacen el conjunto de condiciones formales definidas por las normas básicas. (Chomsky, 1975, p. 13) Ese mismo año, 1975, la máquina se convirtió en una herramienta verdaderamente revolucionaria porque la Comunidad Europea, ante una demanda exponencial de traducciones, emprendió la investigación del tratamiento informático y, en particular, de la traducción automática. Por ello, la Comunidad Europea decidió dedicar e invertir una gran cantidad de dinero en este ámbito. Hoy, más que nunca, el tratamiento informático sigue representando, y es importante recordarlo, un mercado en rápida expansión. Digamos que la detección de palabras, gracias a estas diferentes herramientas, es un fuerte interés socioeconómico que amasa colosales sumas de dinero porque las empresas pueden extraer palabras clave de inmensas bases de datos que luego pueden analizar, controlar, manipular y revender a su antojo. Estos diferentes elementos nos indican que, el transcurso del último siglo, la tecnología se desarrolló de forma exponencial, llevando a profesores e investigadores a cuestionar también cada vez más el lugar del TAL en nuestras aulas. Sin embargo, ¿cómo sacarle el mejor partido a estos recursos? ¿Qué beneficios y a costa de qué inconvenientes? ¿Cuáles son las dificultades y los desafíos que están detrás de estos nuevos métodos de enseñanza? Todas estas preguntas, y otras más, son a las que hemos pretendido dar respuesta a lo largo de esta tesis. Partiendo de diversos documentos auténticos (artículos de prensa de la Primera Guerra Mundial), que tuvimos que limpiar escrupulosamente para nuestra manipulación informática, hemos intentado construir una reflexión en torno al posible aprendizaje de la lengua y de la lingüística desde la perspectiva del TALN. Con esto en mente, nos planteamos estructurar nuestra investigación en diferentes etapas: limpieza de corpus, manejo de la plataforma multidimensional, experimentos lexicométricos y textométricos diversos desde una perspectiva sociocultural y lingüística y, finalmente, se imponía una puesta en práctica de nuestra investigación desde un enfoque didáctico con la concepción de ejercicios semi-automatizados. Así pues, se trata de presentar una propuesta de enseñanza del idioma y de la lingüística bajo el prisma de la inteligencia artificial y del TALN, pero también de la historia y de sus aspectos socioculturales, fuentes vivas y actuales con las que proporcionar una formación general a nuestros alumnos universitarios así como una formación más especializada para otras disciplinas. Todos ello se puede abordar en diferentes ángulos que han alimentado nuestro constante interés por la investigación. Esperamos, gracias a esta tesis, aportar nuestro granito de arena a la gran labor que es la de la enseñanza de idiomas, buscando siempre una proyección diferente e innovadora.