La ingeniería lingüística en la sociedad de la información



Descargar 174.93 Kb.
Página2/5
Fecha de conversión29.04.2018
Tamaño174.93 Kb.
1   2   3   4   5

3. 2 Anotaciones

Los datos lingüísticos inherentes a un corpus adquieren mayor valor cuando se explicitan mediante la incorporación de anotaciones metalingüísticas y extralingüísticas. Durante décadas han convivido distintos sistemas de anotación, con propiedades y fisonomías de muy diversa índole. En los noventa la situación ha ido paulatinamente regularizándose. Son conocidas, en este sentido, las recomendaciones de Leech 1993, que se resumen en estas siete máximas:



  1. Facilitar la eliminación de las anotaciones, de forma que sea posible recuperar la versión original de los textos.

  2. Permitir la extracción de las anotaciones por sí mismas, de manera que puedan constituir una base de conocimientos autónoma, independiente del texto al que se deben.

  3. Distribuir las normas en las que se basan las anotaciones para que los usuarios finales puedan interpretarlas sin dificultad.

  4. Indicar el procedimiento por el que se introdujeron las anotaciones en los textos y las personas responsables del proceso.

  5. Alertar sobre la posibilidad de que el corpus anotado contenga errores. La anotación de un corpus es un acto de interpretación de estructuras y de contenidos y no es infalible.

  6. Permitir la más amplia funcionalidad y reutilización del corpus acudiendo a propuestas con mayor aceptación y neutras en lo posible respecto a formalismos o teorías gramaticales concretas.

  7. Admitir la existencia de otras normas y estándares de anotación.

La última máxima de Leech refleja la situación anterior a la publicación de las directrices del Text Encoding Initiative (Sperberg-McQueen y Burnard 1994), que una parte mayoritaria de la comunidad lingüística ha adoptado ya como propuesta de anotación estándar. TEI ha sido respaldada por colectivos de gran peso, como son la Association for Computational Linguistics (ACL), la Association for Computers and the Humanities (ACH), la Association for Literary and Linguistic Computing (ALLC), o la Modern Languages Association (MLA). Vamos a repasar los logros más importantes de esta y otras iniciativas de normalización:

  • TEI fue creado en 1987 con el objetivo principal de proporcionar directrices que facilitasen el flujo de corpora y de herramientas entre la comunidad científica. Para el etiquetado TEI adoptó SGML (Standard Generalized Markup Language), que desde 1986 estaba registrado como norma ISO 8879 en el epígrafe para la documentación electrónica. Los esfuerzos de TEI han sido posteriormente ampliados por otras iniciativas.

  • El grupo EAGLES (Expert Advisory Groups on Language Engineering Standards), que ha sido auspiciado por la Comisión Europea, ha concretado los contenidos de algunas propuestas TEI, añadiendo criterios para la codificación de un amplio abanico de cuestiones lingüísticas (que abarcan desde rasgos fonéticos hasta cuestiones de pragmática y discurso).

  • En paralelo con EAGLES, otro proyecto comunitario, PAROLE, se ha centrado sobre todo en la creación de recursos léxicos en varias lenguas europeas. Uno de los mayores logros de PAROLE ha sido la propuesta de un conjunto homologado de etiquetas morfosintácticas para varias lenguas europeas (inglés, danés, neerlandés, francés, italiano, catalán, español, entre otras).

  • Otro proyecto europeo destacable es MULTEXT (Multilingual Text Tools and Corpora) que ha desarrollado programas modulares para la segmentación y etiquetado de corpus en varias lenguas europeas. Algunas de sus herramientas (como el segmentador MtSeg) han sido reutilizadas en otros proyectos (CRATER y CREA).

  • CES (Corpus Encoding Satandards) ha ampliado la cobertura de las anotaciones y ha abarcado un numero mayor de lenguas. Entre sus principales logros está haber recopilado y anotado corpora multilingües con lenguas de Europa oriental.

  • CRATER es otro proyecto comunitario que ha permitido la construcción de un corpus trilingüe (inglés, francés y español) especializado en el campo de las telecomunicaciones y que ha sido anotado con etiquetas morfosintácticas, lematizado y alineado.

  • Otro logro comunitario ha sido el Multilingual Corpus I del European Corpus Initiative (ECI/MCI), que en 1994 puso a disposición de la comunidad científica una colección de 98 millones de palabras con textos de 27 lenguas europeas.

4 Tipos de anotaciones

La aportación principal de estas iniciativas, más que la propia compilación de corpora, reside en la metodología que se aplica en el etiquetado. Debemos considerar tres tipos de anotaciones:



  • Anotaciones con información extralingüísitca

  • Anotaciones tipográficas

  • Anotaciones lingüísticas

4. 1 Información extralingüística

En el diseño de un corpus es importante tener registrados adecuadamente todos los datos relacionados con el origen de los textos: la lengua, la datación, el autor, la edición, el trancriptor, fecha de cada una de revisiones, el dominio al que pertenece; y cuanta otra información que pueda ayudar a catalogar el corpus: el género, el tipo, el status, la función, etc. Todos estos datos suelen agruparse en lo que se denomina "cabecera" (header) del corpus. TEI ha desarrollado varios modelos de cabeceras.



4. 2 Problemas tipográficos

Durante algún tiempo muchos sistemas informáticos sólo han sido capaces de tratar sistemas de escritura cuyos signos pertenecieran a la tabla ASCII (American Standard Coding for Information Interchange), es decir los mismos caracteres que el inglés. Si se hacían transcripciones de otros idiomas, había que adoptar tablas de caracteres distintas, que no eran intercambiables entre sí (como JUNET para el japonés, o el ASCII extendido para las lenguas latinas, con versiones incompatibles según pertenecieran a un sistema operativo u otro). Internet ha propiciado una vía de solución:



  • El protocolo HTTP (Yergeau y otros 1997) para cuestiones de transferencia de archivos: fue diseñado para permitir la transmisión de metainformación sensible al idioma. La norma RFC 2068 de la versión HTTP 1.1 contempla la codificación de caracteres y la negociación "lingüística" cliente-servidor. De acuerdo con RFC 2068, la codificación de los caracteres se indica mediante un parámetro en el campo de cabecera. Un archivo en japonés codificado en JUNET, por ejemplo, contendrá en la cabecera los atributos Content-type: text/html; charset=iso-2022-JP. El cliente puede indicar preferencia por una determinada codificación (Accept-Charset) o idioma (Accept-Language).

  • La norma RFC 2070 para cuestiones relacionadas con los conjuntos de caracteres. La norma RFC 1886, adoptada en las primeras versiones de HTML, restringe el conjunto de caracteres al conjunto del ISO-8859-1 o ISO-Latin-1, que sólo sirve para lenguas con el alfabeto latino. ISO-Latin-1 es de 8-bits, de forma que permite un máximo de 256 caracteres. La norma posterior RFC 2070 ha añadido propiedades a HTML para soportar documentos en distintos idiomas. Para ello ha reemplazado el ISO-Latin por el ISO 10646 de 1993, conocido como UCS (Universal Universal Character Set) y que coincide en todo con otra norma, UNICODE 1.1. UNICODE es un sistema de 16-bits con capacidad para representar cualquier colección de símbolos, con un techo amplio de 65.000 caracteres suficiente para todos los sistemas de escritura en el mundo. XML ha adoptado UNICODE.

Los problemas relacionados con los códigos de caracteres no son exclusivos de los corpora multilingües, también puede suceder con los monolingües. El grupo encargado del tratamiento del corpus histórico CORDE informa de problemas de segmentación, derivados de "las peculiaridades ortotipográficas, que desafían el esquema de anotación, que trata de ser respetuoso con las intervenciones de autores, copistas y editores en el texto y que, en consecuencia, dificulta las unidades de análisis lingüístico" y las diferentes fases del etiquetado (Sánchez León 1999).



4. 3 Información lingüística

El tipo de información más valiosa de un corpus es la información de tipo lingüístico que las anotaciones harán explícitas. Podemos considerar varios niveles:



  • Anotaciones estructurales donde se identifican los elementos lógicos que componen un texto: epígrafes, párrafos, etc.

  • Anotaciones morfosintácticas que asignan a cada unidad léxica un código que identifica su categoría morfosintáctica (su part of speech, POS), así como otras propiedades morfológicas generalmente asociadas a la flexión (género, número, persona, caso, tiempo, etc.)

  • Lematización, proceso mediante el cual las formas flexionadas del corpus se emparejan con sus lexemas respectivos, es decir con la forma de citación tal como aparecen en los diccionarios.

  • Análisis sintáctico de las categorías sintagmáticas intraoracionales: grupos verbales y nominales, cláusulas subordinadas, etc.

  • Anotaciones orientadas a la tarea: como pueden ser las unidades de traducción (Martínez 1999) o el etiquetado de referencia (numeración, citas, etc.).

  • Códigos de correspondencia: etiquetas que hacen explícita la correspondencia entre unidades de traducción y que se asignan en el proceso de alineación.

En los siguientes apartados se van a agrupar los procesos que incorporan las anotaciones lingüísticas en dos grupos. A la etapa propia del etiquetado monolingüe la vamos a llamar segmentación; y al proceso distintivo de los corpora multilingües, alineación.

5 Segmentación

La segmentación tiene por objetivo identificar y anotar los elementos distintivos en todos los niveles de análisis. El efecto de la segmentación se suele representar mediante etiquetas o anotaciones que se incorporan al corpus. Existen varias propuestas de segmentación morfológica, de lematización y del análisis sintáctico para el español y para el euskara. Por lo general, estos tres procesos se simultanean con la tarea de desambiguación, es decir, de elección de la categoría más probable entre distintas opciones posibles en cada nivel. En este apartado vamos a repasar los niveles de segmentación, reseñando los trabajos que más nos pueden interesar.



5.1 Etiquetado estructural

En el nivel de análisis más genérico se identifican los elementos lógicos que reflejan la estructura del texto: epígrafes, apartados, párrafos, enumeraciones, oraciones, signos de puntuación, etc. Dentro de la oración se pueden reconocer las palabras del léxico genérico distinguiéndolas de otros elementos como nombres propios, números, fechas, siglas, acrónimos, etc. Martínez 1999 ha desarrollado un conjunto de segmentadores modulares que añaden etiquetas estructurales de tipo SGML/TEI para el corpus bilingüe LEGEBIDUN/BOB. Estos segmentadores pueden adaptarse con facilidad a otros corpora.



5. 2 Etiquetado morfosintáctico

Para el tratamiento morfosintáctico del español se han elaborado varios recursos. La RAE ha aplicado el generador morfológico del proyecto MULTEXT, mmorph (Bel y otros 1996). Se trata de un programa que combina morfología de dos niveles (para problemas de morfografía) y gramáticas de unificación y que reutiliza parte de los desarrollos del proyecto EUROTRA (Sánchez León 1999), los resultados se recogen en SGML/TEI (Pino y Santalla 1996). Por otro lado, en la Universidad Politécnica de Catalunya se ha desarrollado MACO+, un etiquetador basado en restricciones contextuales que resuelve mediante árboles de decisión estadísticos (Márquez y Padró 1997). Otros etiquetadores morfosintácticos para el español son SPOST (Farwell y otros 1995), SMORPH (Aït-Mokhtar y Rodrigo Mateos 1995), o el de Gala 1999. En la Universitat Pompeu Fabra se ha desarrollado CATMORF para el catalán (Badía 1997) y en la Universidad del País Vasco se ha desarrollado MORFEUS para el euskara, un sistema que también está basado en la morfología de dos niveles (Alegria 1995 y Urkia 1997). La asignación de etiquetas morfosintácticas (etiquetas POS) suele simultanearse con la lematización.



5. 3 Lematización

Lematizar es reducir las formas flexivas de un texto a sus lexemas respectivos, es decir, a la forma de citación que se utiliza en los diccionarios (infinitivo para las formas verbales, masculino singular para las forma nominales). Así, tras la lematización, las formas soy, era, fui o seré serán reducidas al lexema ser. El conjunto de todas las variantes flexivas de un lexema es lo que se conoce como "lema". La lematización es importante porque permite conocer con mayor exactitud la composición léxica de los textos, y tiene especial relevancia para aplicaciones como la categorización textual o la recuperación de información. Para el español se han publicado resultados de varios lematizadores, siendo los más conocidos los de Sánchez-León 1995, Márquez y Padró 1997, o Gala 1999. Todos ellos realizan la lematización dentro del proceso de etiquetado morfosintáctico. En la Universidad del País Vasco se ha desarrollado el lematizador EUSLEM para euskara (Aduriz y otros 1996).


forma flexiva


lexema

etiqueta POS

entidad SGML

que

que

PR3CN00

que&pr3cn;

agota

agotar

VMIP3S0

agota&vmip3s;

la

la

TFFS0

la&tffs;

vía

vía

NCFS00

vía&ncfs;

administrativa

administrativo

AQ0FS00

administrativo&aq0fs;

podrá

poder

VMIF3S0

podrá&vmif3s;

interponerse

interponer

VMN000

interponerse&vmn;

recurso

recurso

NCMS00

recurso&ncms;

contencioso

contencioso

AQ00000

contencioso&aq0;

ante

ante

SPS00

ante&sps;

Tabla 2. Resultados del lematizador de Márquez y Padró, con muestras de etiquetas morfosintácticas (según los códigos propuestos por PAROLE)

Para resolver la ambigüedad entre varias categorías candidatas existen tanto métodos de base estadística, como de base simbólica. Por los resultados obtenidos en algunas comparativas (Chanod y Tapanainen 1995) se deduce que los sistemas estadísticos tienen un comportamiento aceptable cuando el corpus es homogéneo, pero son problemáticos si no lo es. Por lo general, resulta más sencillo entrenar un desambiguador estadístico que elaborar uno simbólico. La compilación de reglas gramaticales para desambiguar es un proceso manual, particularmente largo y costoso, pero que da mejores resultados a largo plazo. El grupo de la RAE (Sánchez León 1999) ha desarrollado una herramienta de desambiguación basada en la gramática de restricciones (Constraint Grammar, Karlsson y otros 1995). El grupo IXA de la Universidad del País Vasco también ha utilizado este método, aunque lo ha combinado con otros programas de base estadística, para aprovechar las ventajas de ambas estrategias (Aduriz y otros 1999, Gojenola 2000). Márquez y Padró 1997, por su parte, resuelven la ambigüedad mediante árboles de decisión estadísticos. La desambiguación de las categorías léxicas favorece considerablemente la eficacia del análisis sintáctico.

5. 4 Análisis superficial

Después de segmentar el texto en oraciones y anotar las palabras mediante etiquetas POS, el siguiente paso es reconocer las categorías sintagmáticas intraoracionales: sintagmas nominales, verbales, adjetivos y preposicionales, cláusulas subordinadas, etc. Para este proceso hacen falta analizadores sintácticos robustos, capaces de abordar cualquier tipo de construcción. Los modelos de gramáticas formales que se desarrollaron en la década de los ochenta están en su mayoría basados en reglas independientes de contexto. Tienen la ventaja de ofrecer mayor poder expresivo, pero a costa de una mayor complejidad computacional. Desde hace algunos años, para el análisis sintáctico de textos reales se ha optado por el diseño más simple de modelos basados en reglas de estados finitos. El procesamiento suele acometerse por segmentos menores a la oración, a los que se asignan categorías parciales. Es lo que se conoce como análisis superficial (shallow parsing).

Gala 1999 clasifica los analizadores superficiales en dos tipos:


  • Los que aplican un enfoque construccionista: que funciona mediante la adición progresiva de restricciones durante el proceso de análisis (Joshi 1996)

  • Los que aplican un enfoque reduccionista: que funciona mediante restricciones que sirven para eliminar análisis posibles (Karlsson y otros 1995, Chanod y Tapanainen 1996).

Para el español se han elaborado dos analizadores superficiales: TACAT, de Atserias y otros 1998, e IFSP (Incremental Finite-State Parsing) de Gala 1999. TACAT está basado en charts con una metodología incremental que utiliza gramáticas independientes de contexto en lugar de reglas de estados finitos.

Por otro lado, IFSP aplica un enfoque construccionista por medio de análisis parciales en tres fases (tabla 3):



  1. Segmentación primaria: para reconocer secuencias de palabras con relación sintagmática (fase 1).

  2. Una vez reconocidas las principales agrupaciones sintagmáticas, se asignan funciones sintácticas (fase 2).

  3. El proceso termina resolviendo las relaciones de dependencia (fase 3).


Fase 1: etiquetado morfosintáctico



Fase 2: etiquetado funcional

Fase 3: relaciones de dependencia

[SC [NP La^el+DETSG posicion^posicion+NOUNSG NP]/N [PP del^de=el+PREPDET Gobierno^gobierno+NOUNSG PP] [AP frances^frances+ADJSG AP] : v ha^haber+HAB sido^ser+PAPUX interpretada^interpretarPAPSG SC] como^como+COMO [NP una^un+DETQUANTSG manera^manera+NOUNSG NP]/N [IV de^de+PREP_DE eludir^eludir+VERBINF IV] [NP el^el+DETSG problema^problema+NOUNSG NP]/N .^.+SENT

[SC [NP El^el+DETSG problema^problema+NOUNSG NP]/SUBJ : v tiene^tener+VERBFIN SC] [NP una^un+DETQUANTSG dimension^dimension+NOUNSG NP]/OBJ [AP mayor^mayor+ADJSG AP].^.+SENT

[SC [NP Las relaciones NP]/SUBJ [AP sociales AP] : v son SC] [AP muy informales AP], [PP en el sentido PP] [SC [PP de que PP] [NP las personas NP]/SUBJ :v se visitan SC] [PP sin previo aviso PP] ;
SUBJ(relación,ser)
SUBREFLEX(persona,visitar)
ATTR(relación informal)
VMODOBJ(ser,en,sentido)
PADJ(relación,social)
ADJ(previo aviso)

La posición del gobierno francés ha sido interpretada como una manera de eludir el problema.

El problema tiene una dimensión mayor.

Las relaciones sociales son muy informales, en el sentido de que las personas se visitan sin previo aviso;

Tabla 3. Fases del etiquetador IFSP de Gala 1999.
1   2   3   4   5


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal