La herramienta informática El Grial fue creada
inicialmente con el objetivo de apoyar la investigación y la docencia
en los Programas de Postgrado en Ling üística de la Pontificia
Universidad Católica de Valparaíso, Chile. Paralelamente, se decidió
otorgarle un carácter más versátil como un sitio web abierto que
acogiera la herramienta de etiquetaje morfosintáctico y una base de
almacenamiento de corpus así como una interfaz de consulta de corpus
electrónicos. Este servicio de recursos y datos en línea se ofrece
ahora a investigadores en el ámbito de la lingüística e
interdisciplinas tanto a nivel nacional como internacional.
Se puede acceder al sitio desde aquí
El Grial: interfaz computacional para anotación e interrogación de corpus en español
Giovanni Parodi
Lingüística de Corpus y Discursos Especializados: Puntos de Mira. Valparaíso: Ediciones Universitarias de Valparaíso.
Año: 2007
Introducción
El desarrollo de la investigación en la lingüística ha venido enfrentando cambios radicales en los últimos 10 a 20 años. No tanto por los cambios paradigmáticos o los nuevos desafíos teóricos, sino por la vertiginosa tecnologización que de manera decisiva ha venido a apoyar la labor científica. Es muy cierto que en Latinoamérica, en parte por dificultades presupuestarias, no hemos logrado implementar los recursos necesarios en términos comparativos con otros polos del mundo. Esto ha producido, por una parte, que la indagación del español se vea algo disminuida o que sus desarrollos, proyección y visibilidad se esté realizando desde otros horizontes geográficos. No obstante ello, no puede dejar de reconocerse que esto también ha sido producto de cierta falta de decisión y vanguardia en los equipos de investigación en nuestro mundo iberoamericano. Afortunadamente, en años recientes, se han llevado a cabo una serie de implementaciones digitales y computacionales para el español, algunas desarrolladas en España y otros en Latinoamérica (Ruiz Miyares, 2001; Rojo, 2002, 2001; Parodi & Venegas, 2004; Castel & Miret, 2004; Venegas, 2006; Parodi, 2007a; Torner & Battaner, 2006).
Dentro de este escenario, y como un modo de progresar hacia una lingüística interdisciplinaria y contar con recursos tecnológicos de punta, en la Pontificia Universidad Católica de Valparaíso, Chile, hemos diseñado e implementado una interfaz computacional denomina El Grial, disponible en un sitio web de acceso gratuito, que apoya la investigación de la lengua española en el marco de la hoy llamada Lingüística de Corpus (Leech, 1992, 2002; Tognini-Bonelli, 2001; Teubert, 2005; Parodi, 2005a, 2007a). En este artículo nos proponemos reseñar los fundamentos para la construcción de esta plataforma Internet, explicar su funcionamiento y ejemplificar sus funciones básicas. En la parte final de este artículo, se describe brevemente otra función computacional desarrollada innovadoramente por nuestro equipo a partir de investigaciones recientes (Parodi, 2005a) denominado El Manchador de Textos.
La herramienta informática El Grial (www.elgrial.cl) fue creada inicialmente con el objetivo de apoyar la investigación y la docencia en los Programas de Postgrado en Ling üística de la Pontificia Universidad Católica de Valparaíso, Chile. Paralelamente, se decidió otorgarle un carácter más versátil como un sitio web abierto que acogiera la herramienta de etiquetaje morfosintáctico y una base de almacenamiento de corpus así como una interfaz de consulta de corpus electrónicos. Este servicio de recursos y datos en línea se ofrece ahora a investigadores en el ámbito de la lingüística e interdisciplinas tanto a nivel nacional como internacional.
Las motivaciones para la construcción del sitio El Grial han sido:
-
a) Poner a disposición una interfaz de interacción amigable que apoye a los lingüistas e investigadores no necesariamente especialistas en informática
-
b) Ofrecer una herramienta computacional de uso gratuito y en línea a la comunidad de investigadores con textos etiquetados en lengua española
-
c) Aportar a la tecnologización de la investigación
-
d) Estimular el uso de corpus progresivamente crecientes para las investigaciones en lengua española
-
e) Impulsar líneas de investigación en torno a la Lingüística de Corpus
De este modo, El Grial es un sistema computacional que cumple cuatro funciones básicas:
-
Anotar morfosintácticamente textos en archivos digitales planos en lengua española
-
Recuperar esta información en forma de consultas de bases de datos
-
Organizar y administrar los corpus recopilados por los equipos de investigación de la Escuela Lingüística de Valparaíso (www.linguistica.cl) de la Pontificia Universidad Católica de Valparaíso, Chile, y
-
Ofrecer la posibilidad de cargar y anotar corpus de modo temporal y consultarlos de modo gratuito, ya sea a través de una consulta en línea o con un permiso de carga temporal por un período de tiempo determinado
El Grial cumple, al mismo tiempo, la utilidad de hacer visible una línea de investigación en desarrollo por parte de los académicos de la denominada Escuela Lingüística de Valparaíso , Chile ( www.linguistica.cl ). Muchas de estas investigaciones se realizan con fondos gubernamentales al servicio de propósitos exclusivamente científicos. En este contexto, es relevante destacar que a través de este sitio web www.elgrial.cl se busca fines netamente académicos y no se contempla, de modo alguno, acciones comerciales o propósitos de lucro. Por ello, es un sitio patrocinado íntegramente por Pontificia Universidad Católica de Valparaíso y no se considera la participación de auspiciadores.
Vale la pena señalar que hemos escogido el nombre de El Grial para identificar la interfaz de etiquetaje y consulta computacional de corpus textuales de manera muy intencionada para mostrar la relación existente entre la mítica leyenda de raíz céltico-cristiana y el espíritu que inspira al grupo de investigación en esta búsqueda de conocimiento y ojala de sabiduría, esperando aportar a un proyecto académico internacional, no solo con información bruta sino impulsando nuevos desafíos académicos mancomunados.
1.1 Anotación multiniveles
Las herramientas que constituyen el sistema computacional permiten etiquetar (clasificar gramaticalmente y marcar las palabras de un texto) y analizar los tipos de estructuras lingüísticas que aparecen en distintos tipos de textos. Las máquinas computacionales que subyacen a El Grial y que posibilitan la anotación gramatical provienen de un programa llamado Connexor que cuenta para el español con dos desarrollos: un etiquetador morfológico ( tagger ) y un analizador sintáctico ( parser ). El etiquetador morfológico es un analizador rápido que enriquece las formas textuales y etiqueta los textos de acuerdo a las clásicas partes de la oración (POS, por su sigla en inglés), morfología y entidades de significado b á sico. Produce lo que se denomina etiquetas morfológicas superficiales .
Por su parte, el analizador sintáctico (basado en una gramática funcional de dependencias: GFD) entrega, a la vez, información morfológica básica y también de la dependencia funcional que representa n las relaciones de informaci ó n al interior de la oración. Codifica, además, información acerca de objetos y hechos (nombres, organizaciones y lugares), acciones (quién hizo qué a quién) y circunstancias (dónde , cuándo , cómo , por qué ). Su output contiene cinco campos: posición de la palabra, palabra, lema, dependencia funcional, etiqueta funcional (etiqueta sintáctica de superficie y etiquetas morfológicas) .
Dado que las máquinas computacionales del Connexor se encuentran disponibles únicamente para equipos con sistema Linux, decidimos construir una interfaz amigable y versátil en ambiente Windows que permitiera un trabajo más expedito para no expertos en computación. También, cabe señalar que El Grial supera largamente a un programa tradicional de marcaje morfosintáctico, pues su organización de almacenaje y consulta de corpus brinda potencialidades infinitas de investigación; al mismo tiempo, también es lícito señalar que todo ello ha supuesto una inversión de recursos y tiempo considerable que van mucho más allá de lo ya complejo que supone la construcción de la herramienta de anotación lingüística. Veamos pues, a continuación, de qué se trata todo esto.
1.1.1 Tres tipos de etiquetas
Los dos tipos de anotaciones más arriba comentados se operacionalizan en tres tipos de etiquetas, las cuales alcanzan un total de 41 tipos básicos, pero cuya productividad específica supera los 70. Estas etiquetas son:
-
11 etiquetas morfológicas (de base) [POS]
-
27 etiquetas de dependencia funcional [EDF]
-
13 etiquetas sintácticas de superficie [ESS]
Ahora bien, dado que se detectaron diversos tipos de problemas tanto con el nombre de algunas de las etiquetas provistas por Connexor (solo disponibles inicialmente en idioma inglés), como con el grado de precisión del análisis ejecutado (porcentaje de error cercano al 4% en el nivel morfológico y rondando el 13% en el nivel sintáctico), se procedió paralelamente en tres frentes de acción. Se buscaba, por una parte, incrementar el nivel de fiabilidad de las anotaciones y, por otra, producir etiquetas en español que fueran transparentes y acertadas en su nominación. Estos tres pasos son:
1 . Como se dijo, debido a que se comprobó que ciertas etiquetas que la máquina morfosintáctica del Connexor anotaba resultaban en algunos casos ambiguas y no siempre acertadas, se optó por llevar a cabo una comprobación del grado de precisión de cada una de ellas, a partir de un corpus de prueba y contraste. Esta indagación empírica nos condujo a eliminar 3 etiquetas que no parecían discriminar en su anotación. Así, se llegó a las 41 etiquetas de base (sin sumar las subcategorías), agrupadas en tres tipos de anotaciones.
2 . El procedimiento de indagación y comprobación del grado de fiabilidad de cada anotación también probó ser una estrategia muy útil para revisar y determinar el nombre correspondiente, según la gramática del español, para cada una de las etiquetas. Ello debido a que, por un lado, las etiquetas y las abreviaturas de estos nombres no resultaban siempre de alta transparencia para el investigador y, por otro, a que el programa original (aunque sigue una gramática del español) proporcionaba etiquetas y abreviaturas solo en lengua inglesa. De este modo, fue necesario llevar a cabo una exploración basada en corpus y realizar una interpretación gramatical de los ejemplos marcados bajo determinadas etiquetas, buscando nombres adecuados y simples (pero certeros) según la gramática del español.
3 . En el tercer eje de acción, con el fin de alcanzar el mayor porcentaje de certeza en el etiquetaje, se diseñó y dotó a El Grial de una plataforma de revisión y corrección manual de las anotaciones automáticas iniciales. Esta herramienta tecnológica adicional brinda la posibilidad de contar con textos anotados con un alto porcentaje de fiabilidad a través del cual se pretende alcanzar un mínimo porcentaje de error. Esto quiere decir que una vez aplicado automáticamente el proceso de anotación, se revisa cada texto a través de una interfaz de manera manual y se corrigen las etiquetas que pudieran estar asignadas erróneamente. Por supuesto que para ello se ha debido especializar a personal idóneo tanto en el manejo del sistema como en la competencia gramatical pertinente; además, se debe contemplar el tiempo requerido para esta fase de revisión que obviamente es lenta y compleja. No obstante ello, tanto la posibilidad de contar con la creación de una interfaz de corrección manual como la alternativa de llegar a disponer de un corpus etiquetado fiablemente (con un acierto cercano al 100%) son logros que robustecen indudablemente al sistema.
A continuación, en la Tabla 1 se presentan las once etiquetas morfológicas de base o clásicamente conocidas bajo la sigla en inglés POS . Ellas se diferencian de los otros dos grupos de etiquetas porque poseen categorías y subcategorías.
|
Etiquetas Morfológicas
|
|
Categoría gramatical
|
Subcategorías
|
Explicación
|
|
SUST
|
|
Nombre
|
|
Género
|
FEM
|
Femenino
|
|
|
MSC
|
Masculino
|
|
|
AMB
|
común, no indicado
|
|
Número
|
SG
|
Singular
|
|
|
PL
|
Plural
|
|
|
ABR
|
Abreviación
|
|
|
PROP
|
nombre propio
|
|
ADJ
|
|
Adjetivo
|
|
|
COMP
|
Comparativo
|
|
|
SUP
|
Superlativo
|
|
|
Género y número si se aplica
|
|
|
Numeral
|
|
Numeral
|
|
|
CARD
|
Cardinal
|
|
|
ORD
|
Ordinal
|
|
|
Género y número si se aplica
|
|
|
PRON
|
|
Pronombre
|
|
Caso
|
ACU
|
Acusativo
|
|
|
DAT
|
Dativo
|
|
Género
|
MSC
|
Masculino
|
|
|
FEM
|
Femenino
|
|
|
AMB
|
Ambiguo
|
|
Número
|
SG
|
Singular
|
|
|
SG1
|
singular, primera persona
|
|
|
SG2
|
singular, segunda persona
|
|
|
SG3
|
singular, tercera persona
|
|
|
PL
|
Plural
|
|
|
PL1
|
plural, primera persona
|
|
|
PL2
|
plural, segunda persona
|
|
|
PL3
|
plural, tercera persona
|
|
Subtipos
|
INT
|
adverbio interrogativo o pronombre
|
|
|
PER
|
Pronombre personal
|
|
|
POS
|
Pronombre posesivo
|
|
|
DEM
|
Pronombre demostrativo
|
|
|
REFL
|
Pronombre reflexivo
|
|
|
REL
|
Pronombre relativo
|
|
PREP
|
|
Preposición
|
|
DET
|
|
Determinante
|
|
|
Género y número si se aplica
|
|
|
ADV
|
|
adverbio
|
|
V
|
|
Verbo
|
|
Modo
|
IND
|
Indicativo
|
|
|
SUB
|
Subjuntivo
|
|
|
IMP
|
Imperativo
|
|
Tiempo
|
PRES
|
Presente
|
|
|
IMPF
|
Imperfecto
|
|
|
PRET
|
Pretérito
|
|
|
CND
|
Condicional
|
|
|
FUT
|
Futuro
|
|
Número
|
SG1
|
singular, primera persona
|
|
|
SG2
|
singular, segunda persona
|
|
|
SG3
|
singular, tercera persona
|
|
|
PL1
|
plural, primera persona
|
|
|
PL2
|
plural, segunda persona
|
|
|
PL3
|
plural, tercera persona
|
|
VBD
|
INF
|
Infinitivo
|
|
|
PART
|
Participio
|
|
|
GER
|
Gerundio
|
|
CS
|
|
conjunción subordinada
|
|
CC
|
|
conjunción coordinante
|
|
INTERJ
|
|
Interjección
|
Tabla 1. Etiquetas morfológicas de El Grial
Tal como ya se adelantó, estas once etiquetas pueden alcanzar una alta productividad y cubrir más de setenta anotaciones efectivas. Por ejemplo, en el caso de la etiqueta Pronombre , esta se ha contabilizado como una sola pero ella cubre toda la gama de pronombres existentes en español y sus respectivas combinatorias de género y número. Así, existen anotaciones particulares para cada una de ellas y, por ende, en la práctica se cuenta con más de 30 posibilidades de anotación altamente subespecificada. Caso similar ocurre con la etiqueta de Sustantivo y Adjetivo . En ambos casos su riqueza también es mucho mayor de la que se cuenta en una sola anotación.
La Tabla 2 muestra las etiquetas de dependencia funcional [EDF], cuyo número alcanza a 27. Cabe destacar que algunas de estas etiquetas se superponen con ciertas de las incluidas en la Tabla 1, pero en ningún caso esto genera dificultades de procesamiento. Es solo una cuestión de aproximación gramatical al texto y no afecta el análisis propiamente tal.
|
Etiqueta de Dependencia Funcional
|
EDF
|
|
Nombre de la etiqueta
|
Etiqueta abreviada
|
|
Sintagma verbal
|
SV
|
|
Auxiliar de verbo compuesto
|
AUX
|
|
Preposición
|
PREP
|
|
Pronombre enclítico
|
ENC
|
|
Complemento de régimen preposicional
|
CRPRE
|
|
Sujeto
|
SUJ
|
|
Objeto directo
|
OD
|
|
Atributo subjetivo
|
AS
|
|
Objeto indirecto
|
OI
|
|
Frase adverbial de participio
|
FRAP
|
|
Vocativo
|
VOC
|
|
Frase adverbial de tiempo
|
FRAT
|
|
Frase adverbial de duración
|
FRAD
|
|
Frase adverbial de frecuencia
|
FRAF
|
|
Frase adverbial de cantidad
|
FRAC
|
|
Frase adverbial modo
|
FRAM
|
|
Frase adverbial de lugar (CCL o adv. de lugar)
|
FRAL
|
|
Frase preposicional de dirección
|
FRPD
|
|
Frase preposicional de finalidad
|
FRPF
|
|
Cláusula de causa/efecto o finalidad
|
CLCE/F
|
|
Cláusula de condicionalidad
|
CLC
|
|
Adjetivos numerales cardinales
|
ADJNC
|
|
Determinantes
|
DET
|
|
Adverbio de negación
|
ADVN
|
|
Modificador prenominal
|
MPREN
|
|
Adjetivo postpuesto
|
ADJPOST
|
|
Modificador nominal (frases preposicionales y cláusulas relativas)
|
MN
|
Tabla 2. Etiqueta de dependencia funcional de El Grial
Por último, en la Tabla 3 se ofrecen las denominadas etiquetas sintácticas de superficie (ESS). Nuevamente cabe señalar que existe entrecruzamiento entre algunas etiquetas con las listadas en las tablas 1 y 2, pero esto no afecta el procesamiento de la información en el sistema. Estas son 13 etiquetas:
|
Nombre de la etiqueta
|
Etiqueta abreviada
|
|
Frase verbal simple conjugada
|
FRVconj
|
|
Verboides
|
Vbd
|
|
Verbo auxiliar
|
Vaux
|
|
Adverbio de Frase adjetiva
|
ADVfradj
|
|
Adverbios
|
Adv
|
|
Núcleo de frase nominal
|
Nn
|
|
modificador pronominal
|
Mpre
|
|
Adjetivo especificativo
|
ADJes
|
|
Artículos
|
Art
|
|
Adjetivos numerales cardinales
|
ADJnc
|
|
Conjunciones
|
Conj
|
|
Preposiciones
|
Prep
|
|
Interjecciones
|
Interj
|
Tabla 3. Etiquetas sintácticas de superficie de El Grial
Una vez descrito el sistema de etiquetas que conforma el sistema de anotaciones morfosintácticas de El Grial, procedemos a describir y ejemplificar el funcionamiento del programa tanto en su modo de consulta como de carga de corpus. Para ello mostraremos las principales pantallas de la interfaz gráfica computacional.
En la Figura 1, se muestra la pantalla de inicio, luego de un flash de entrada. A través de ella se ofrecen dos alternativas: trabajar con los corpus existentes en el sistema ( Consulta de Corpus El Grial ) y denominados de manera genérica El Grial o, si se desea anotar un corpus nuevo y consultarlo, se accede a través de la opción Carga y Consulta de Corpus Temporal . Tanto en ésta como en las pantallas siguientes existe la posibilidad (a través de algunos links permanentes) de encontrar información variada acerca del programa y del equipo de investigadores y de su actividad científica.
Figura 1. Pantalla de inicio El Grial
Cabe destacar una fortaleza de El Grial que nos resulta relevante en términos comparativos con otros sistemas parecidos. Esta es la que se muestra en la Figura 2 y dice relación con nuestra decisión de crear una opción de carga y anotación temporal así como de consulta para los investigadores que deseen trabajar con su propio corpus en el ambiente de El Grial. Como se dijo, se diseñó este acceso con el propósito específico de brindar a la comunidad científica una herramienta de trabajo en línea y sin costo, buscando apoyar las investigaciones desde el marco de la Lingüística de Corpus.
Figura 2. Ingreso al proceso de documento temporal
Si se procede a través de esta opción ( Carga y Consulta de Corpus Temporal) , se deben seguir ciertos pasos de manera secuencial, tal como contar previamente con un texto plano, ser consciente que la carga estará disponible en el sistema por un tiempo limitado, y entre otros- conocer los descriptores mínimos requeridos para este proceso de acceso limitado en el tiempo. Si no se trabaja con un corpus nuevo que se desee etiquetar, se procede a través de la consulta de los corpus existentes en la base de datos. En la siguiente figura, se muestra la pantalla de Consulta de Corpus El Grial . Una vez desplegada, se debe inicialmente- seleccionar el tipo de consulta que se desea realizar y posteriormente elegir el corpus de trabajo o el texto en cuestión (ya sea, a través de Búsqueda Simple o de Búsqueda Compleja ).
Figura 3. Seleccionar tipo de consulta
Sea que se ha optado por consultar el corpus El Grial o incluso si ya se ha cargado un nuevo documento a través de la opción Carga Temporal, tal como lo muestra la Figura 2, se procede a la siguiente pantalla en que se nos ofrecen tres alternativas de trabajo y una opción de información. A través de esta pantalla, podemos seleccionar el tipo de consulta que se quiere realizar: (a) simple, (b) compleja o (c) visualización del output, o sea, obtener el corpus seleccionado con las anotaciones realizadas por el programa.
Para explorar los corpus recolectados por el equipo de la PUCV, se ha incluido un detallado anexo con su nombre, sigla, conformación y tamaño (en término de número de textos y palabras). Estimamos que esta posibilidad de acceso a información pormenorizada de los corpora (letra d) constituye también un rasgo innovador que exhibe El Grial en comparación con otras herramientas semejantes en las cuales no es posible encontrar descripción de los textos que componen cada corpus ni del tamaño del corpus en cuestión. Sin lugar a dudas, la explotación para cualquier investigación a partir de los corpus de El Grial se ve apoyada y cuenta con sustento descriptivo valioso.
Ahora bien, la decisión acerca del tipo de consulta a realizar obliga a seleccionar un texto, un corpus o varios de ellos, según el propósito de la indagación. Dicho de otro modo, al optar por una consulta de tipo simple o compleja, el sistema lleva a otra pantalla (ver Figura 4) en la que se ofrece el menú de acceso a la selección del corpus con una serie de posibles variables.
Figura 4. Seleccionar Corpus El Grial
Tal como lo muestra la Figura 4, algunas alternativas disponibles de seleccionar pueden estar focalizadas en un tipo de texto determinado o es factible estudiar un registro, un modo o un cierto tema. De modo más preciso, cabe señalar que en esta pantalla se entrega información acerca del Corpus El Grial a través de seis descriptores, que a su vez se constituyen en seis opciones de búsqueda e interrogación. Cada uno de ellos, de acuerdo a su naturaleza y decisión del equipo PUCV, cuenta con algunas subcategorizaciones o especificaciones, que hacen más rica y profunda la información disponible. A la vez, entregan mayores alternativas de indagación y comparación en las consultas, ya que es factible combinar más de un descriptor. Por ejemplo, si se seleccionó el modo escrito y, además, se selecciona el registro científico, solo se procesarán aquellos textos que cumplan con estas dos condiciones. Mayoritariamente, la presentación de estos seis niveles tiende a seguir un orden desde lo más general a lo más específico, particular e individual. Esto quiere decir que se parte con opciones tales como Modalidad de Lengua (oral o escrita), una categoría dicotómica y se llega a otra como Documento en que es posible seleccionar un solo texto de un subcorpus.
Los seis niveles en cuestión son:
-
Modo
-
Registro
-
Textos
-
Corpus
-
Tema
-
Documento
En cuanto al Modo , se cuenta con un acceso a textos escritos y otro a textos orales. Si al efectuar la selección solo se marca una de estas opciones, el sistema incluirá en la consulta todos los textos de El Grial que caben bajo esta clasificación, incluyendo textos y corpus de diversa índole. La etiqueta Registro dice relación con los tipos de corpus que componen El Grial. En la actualidad son ocho: Técnico profesional, Científico, Periodístico, Literario, Dialógico, Escolar, Político y Escolar Técnico-profesional.
Textos ha sido elegida para dar cuenta de las clases textuales que integran los ocho registros ya comentados. Ellas alcanzan en la actualidad una variedad que llega a veinte y siete, tales como, ley, reglamento, manual, entrevista oral, glosario, instructivo, etc. No obstante, estas y otras son cuestiones en constante cambio debido a la naturaleza creciente de los corpus en el sistema.
Por su parte, la etiqueta Corpus , a través de una sigla, permite englobar todo un subcorpus de El Grial a la vez, el cual obviamente queda cruzado por muchas de las variables ya descritas. Esto quiere decir que si se selecciona uno de los corpus a través de esta opción se realiza, paralelamente, una opción por un conjunto de las otras categorías descritas. Por ejemplo, si se elige el subcorpus DICIPE, se opta por una modalidad escrita, periodística, monológica y que, a la vez, incluye una variedad de clases textuales (noticias, reportajes, editoriales, etc.).
Temas es una categoría que se aplica a los Documentos . Cabe señalar que no todos los documentos están clasificados temáticamente, por ello algunos son etiquetados como sin tema . En todo caso, la mayoría sí lo está y con esto se intenta aportar mayores detalles de cada uno de los subcorpus. En Temas se indican los tópicos que se abordan en los diferentes textos o corpus (arqueología, ciencias médicas, ciencias de la vida, pedagogía, etc.). Por último, en Documentos se entrega un detalle de cada texto que compone cada subcorpus; así, encontramos información del subcorpus al que pertenece el documento, la numeración del texto dentro del corpus, su clase textual y el número de palabras que lo componen. A modo de ejemplo, si tomamos de la ventana Documentos el texto CTC-COM-ma1 (102.312) , tenemos que se ha incorporado una gran cantidad de información descriptiva de alto poder en esta etiqueta. En primer lugar, cabe señalar que se llegado a ella una vez que se selecciona el Registro Técnico Profesional. Ahora bien, un subcorpus de este registro es el denominado CTC (Corpus Técnico Científico) el que se compone de textos que leen obligatoriamente alumnos de liceos técnico profesionales de educación secundaria diferenciada en tres especialidades: área comercial, marítima e industrial. Como se aprecia en la etiqueta del ejemplo, el texto en cuestión pertenece al CTC del área Comercial (COM) y en la clase textual Manual (ma). En la misma etiqueta también se consigna que es el primer texto de este subcorpus (1) y que cuenta con un total de 102.312 palabras. Toda esta información se encuentra también disponible con mayores detalles en el sistema, a través del menú derecho en el botón Descripción del Corpus El Grial . A través de esta opción ( Documentos ) se tiene acceso a la selección de un solo texto según preferencias específicas así como a un conjunto de los mismos.
Ahora bien, una vez que se ha seleccionado un texto o un corpus a través de alguno o varios de los mecanismos más arriba descritos, se procede a ejecutar el tipo de consulta que previamente se había seleccionado: simple o compleja. Este botón nos llevará a otra pantalla en la que se desplegarán opciones más detalladas de la búsqueda misma. La Figura 5 nos permite visualizar el caso de la Búsqueda Simple .
Figura 5. Búsqueda Simple
La denominada Búsqueda Simple es la primera y más elemental función de interrogación con que cuenta El Grial. A través de ella se permite realizar consultas básicas acerca de un corpus previamente anotado, morfológica y sintácticamente. Esta búsqueda posibilita acceso a información de un corpus según dos modalidades: por frecuencia y en contexto. Estas dos opciones de despliegue de datos se aplican sobre tres categorías: formas, lemas y partes de la oración (POS), a las que se puede agregar información de género y número.
La Búsqueda Simple permite consultar por una palabra específica dentro de un corpus o bien indagar un texto o corpus de modo general (para conocer, por ejemplo, las más altas frecuencias de ocurrencia por categoría gramatical o por forma o lema). Una opción disponible es escribir en la ventana de la página la palabra que se desea indagar, elegir el modo de consulta (por frecuencia o en contexto) y la categoría que queremos obtener como resultado (forma, lema o parte de la oración). Si, por el contrario, se busca visualizar toda la información del texto o corpus desplegada por frecuencia, solo debemos elegir el modo de consulta y las categorías que se quieren obtener como resultado sin necesidad de escribir nada en la pantalla. En el capítulo anterior se ejemplificó esta función abordándolo a modo de conteo de frecuencias, que es otra opción disponible.
Si volvemos a observar la Figura 4, se comprueba que, tal como ya se indicó, también es posible subespecificar una o varias subcategorías, tales como género y número en el caso de los sustantivos o adjetivos. Todo ello revela la riqueza y profundidad con que una interrogación puede ser explorada y de las infinitas alternativas de consulta disponibles en virtud de las preguntas de investigación o las hipótesis por contrastar.
Cualquiera de las búsquedas de que dispone la interfaz El Grial ha sido diseñada para llevar a cabo diversos tipos de análisis cuantitativo de los textos y de los corpus allí registrados o de otros por ingresar; de esta manera, es factible conocer la frecuencia de una palabra objetivo en un texto dado o en todo un corpus. Además, junto con la frecuencia es posible conocer el cotexto oracional (concordancia), es decir, se pueden conocer las palabras a la derecha y a la izquierda que acompañan la palabra que está siendo buscada. Estas funciones se aplican tanto a la Búsqueda Simple como a las otras disponibles.
A continuación, en la siguiente figura, se presenta un tipo de herramienta de mayor complejidad, que brinda alternativas más intrincadas de indagación y con potencialidades mucho mayores.
Figura 6. Búsqueda Compleja
Tal como se decía, El Grial también ha sido diseñado para posibilitar interrogaciones de mayor versatilidad en el análisis de un corpus. A través de esta opción se llevan a cabo búsquedas avanzadas a partir de más de una categoría, esto es, una serie combinada de categorías. En este tipo de consultas se incorporan todas las funciones de la Búsqueda Simple , pero además se puede recuperar información sintáctica e información de dependencia gramatical. La principal diferencia entre este tipo de Búsqueda Compleja y la simple es la posibilidad de interrogar un corpus por cadenas sintácticas específicas combinando incluso formas, categorías y subcategorías. En efecto, por ejemplo, se puede seleccionar una forma, seguido de una etiqueta sintáctica, tal como se muestra en la siguiente secuencia:
[Forma = para; lema = ser; Etiqueta sintáctica = Participio]
A partir de una consulta así, obtendremos secuencias como:
-
Para ser entregados
-
Para ser amados
-
Para ser investigados
Ahora bien, debido a que el programa cuenta además con etiquetas de dependencia funcional es posible obtener una secuencia a partir de la selección de solamente una etiqueta. De este modo, si, por ejemplo, se selecciona la etiqueta Sujeto , se obtiene como resultado todas las secuencias de superficie que cumplen esa función gramatical
2.1 Visualización del output
La interfaz El Grial también posibilita ver los resultados completos del análisis de anotación morfosintáctica y de dependencia funcional que realiza el programa. Estos se presentan en formato de tablas con seis columnas. En la primera columna se entrega la identificación del documento a través del número de clasificación en el subcorpus en que se incrusta. En la segunda, se presenta la numeración correlativa de los elementos de la oración en análisis (considerando la separación de punto a punto). La tercera columna consigna las formas textuales o superficiales, es decir, la palabra tal como aparece en el texto. Cada vez que comienza una nueva oración, la enumeración se inicia nuevamente. En la cuarta columna aparece la lematización de la forma textual de la tercera columna. Como se sabe, el lema corresponde a:
-
a) el infinitivo para el caso de los verbos
-
b) el masculino y singular, cuando corresponda para el caso de los sustantivos, adjetivos y pronombres
En la quinta columna, se muestra la relación sintáctica asociada al número de la primera columna. De este modo, si en la tercera columna aparece det:>3 significa que esa palabra es el determinante de la palabra analizada con el número 3. En la última columna, se entrega información sintáctica y morfológica. La información sintáctica es la primera etiqueta que aparece y es antecedida por el símbolo &. La información morfológica se presenta desde la segunda parte de la etiqueta en adelante y corresponde a la categoría gramatical y las marcas de género y número.
Un ejemplo de los resultados de este programa se presenta a continuación y se detalla posteriormente en la Tabla 4:
Registro: Técnico Profesional
Modo: Escrito
Corpus: CTC-Com-ma
Clase textual: Manual
Área: Marítimo
Identificación Documento: 21
|
id_docum
|
Posición
|
Forma
|
Lema
|
Dep Func
|
POS
|
|
21
|
1
|
CARACTERÍSTICAS
|
característica
|
Main:>0 |
|
&NH N FEM PL |
|
|
21
|
2
|
DE
|
De
|
pm:>4 |
|
&PM> PREP |
|
|
21
|
3
|
LA
|
La
|
det:>4 |
|
&DN> DET FEM SG |
|
|
21
|
4
|
CONTABILIDAD
|
contabilidad
|
Mod:>1 |
|
&NH N FEM SG |
|
|
21
|
5
|
|
|
|
|
|
21
|
1
|
Las
|
Las
|
det:>2 |
|
&DN> DET FEM PL |
|
|
21
|
2
|
Características
|
característica
|
null |
|
&NH N FEM PL |
|
|
21
|
3
|
De
|
De
|
pm:>5 |
|
&PM> PREP |
|
|
21
|
4
|
La
|
La
|
det:>5 |
|
&DN> DET FEM SG |
|
|
21
|
5
|
Información
|
información
|
mod:>2 |
|
&NH N FEM SG |
|
|
21
|
6
|
Contable
|
contable
|
ads:>5 |
|
&
|
|
21
|
7
|
Se
|
Se
|
obj:>9 |
|
&NH PRON |
|
|
21
|
8
|
Puede
|
Poder
|
null |
|
&+FM V
IND
PRES SG3 |
|
|
21
|
9
|
Resumir
|
resumir
|
obj:>8 |
|
&-FM V INF |
|
|
21
|
10
|
En
|
En
|
null |
|
&PM> PREP |
|
|
21
|
11
|
|
|
|
|
Tabla 4. Visualización del output: texto anotado
2.2 Corpus disponibles en línea
La herramienta y base de datos El Grial cumple con el objetivo de administrar todos los corpus disponibles, recolectados a partir de diversos proyectos de investigación. A través del botón Descripción del Corpus El Grial se despliega una tabla de cuatro columnas que específica información pormenorizada de los corpus, sus características, el número de documentos que lo componen y el número de palabras de cada texto y de cada corpus. La siguiente Tabla 5 muestra estos datos:
|
Configuración de los corpus que componen El Grial
|
|
Nombre
|
Características generales
|
Nº documentos
|
Nº palabras
|
|
ARTICOS
|
Artículos de investigación científica en español, recolectados del indexador Scielo
|
642
|
2.471.389
|
|
NOTICENTV-2000
|
Noticiarios centrales de cuatro canales de televisión abierta de Chile
|
270
|
84.809
|
|
DETP- 2004
|
Resúmenes obtenidos como parte de pruebas de comprensión aplicadas a alumnos de especialidades de la formación técnico-profesional diferenciada de enseñanza
|
27
|
40.449
|
|
DICIPE-2004
|
Textos de divulgación de la ciencia y la tecnología en cinco periódicos chilenos de circulación nacional
|
411
|
204.598
|
|
Corpus PUCV-2006
|
Textos académicos obtenidos de los Programas de Estudio de cuatro carreras de la Pontificia Universidad Católica de Valparaíso (Psicología, Trabajo Social, Química Industrial e Ingeniería en Construcción).
|
491
|
58.644.653
|
|
Corpus de Escritura Académica PUCV-2006
|
Pruebas e informes escritos por estudiantes universitarios de las carreras de Psicología e Historia de la Pontificia Universidad Católica de Valparaíso
|
502
|
791.230
|
|
CPP-2000
|
Artículos sobre políticas públicas acerca de la pobreza
|
20
|
234.818
|
|
PUCV-2003
|
Corpus constituido por tres subcorpora,
a) Textos especializados de la formación técnico-profesional. b) Textos de literatura hispanoamericana. c) Entrevistas orales semidirigidas a estudiantes de cuarto año de enseñanza media
|
90
|
1.698.962
|
Tabla 5. Descripción del Corpus El Grial
Como se comprende este es un corpus creciente y en desarrollo. En la actualidad, se están incorporando dos nuevos corpus de tamaño relativamente grande. Ellos pertenecen al Corpus PUCV-2006 que esta siendo recolectado y que abarca, por un lado, los textos que se leen como lectura obligatoria y complementaria en 4 carreras universitarias de la Pontificia Universidad Católica de Valparaíso: Trabajo Social, Psicología, Química Industrial e Ingeniería en Construcción. Por otro, el Corpus PUCV-2006 también contempla la recolección de textos de lectura fundamental en los cuatro escenarios laborales en que estos profesionales se desempeñen. Así, este corpus constituye (por sus características peculiares) una colección de discursos escritos única en Chile tanto por su naturaleza como por su tamaño, ya que no se tiene registro de otro corpus académico y profesional en los mismos cuatro ámbitos de indagación que pretendan llegar a los 70 millones de palabras (Parodi, 2007b).
Sin lugar a dudas la información que un corpus puede contener es infinita y cada investigador debe explorar y buscar respuestas a diversos tipos de preguntas que un determinado corpus puede estimular o para lo cual ha sido recolectado. Como es obvio, son múltiples los niveles y tipos de datos que pueden provenir de una colección de textos, dependiendo (entre otros) de si éste se encuentra etiquetado o no. Si lo está, la información variará según el tipo de etiquetas de que haya sido provisto, o sea, de la gramática que le subyace.
Las posibilidades de consulta de un corpus varían desde una simple lista de palabras para catalogar estructurar gramaticales o porcentaje de ocurrencia léxica que pueden revelar patrones de asociaciones lingüística y no lingüística hasta complejas búsquedas avanzadas a través de operadores booleanos y cadenas o secuencias léxicas o gramaticales, entre otros. En este caso, El Grial permiten realizar análisis, explorando rasgos lexicales individuales o agrupamientos de rasgos co-ocurrentes a lo largo de un texto o de un grupo de textos o de todo un o varios corpus.
Una de las herramientas más básicas y clásicas que extraen información de un corpus es la frecuencia de ocurrencia . A través de ella, lo que se obtiene es una lista de palabras, ya sea organizada alfabéticamente o por orden de frecuencia de ocurrencia (desde la más hasta la menos frecuente). Estas listas pueden entre otros- resultar de alta utilidad lexicográfica, dado que ellas son de ayuda para decidir la lista de voces que, por ejemplo, pueden incluirse en un diccionario, considerando por supuesto su frecuencia de uso. También pueden ofrecernos índices de frecuencia en los que se muestre el ratio palabra/forma o tipo/caso ( type/token ), en otras palabras, el número total de palabras de un texto frente al número de palabras diferentes que aparecen en el mismo texto. Este tipo de análisis se puede efectuar en El Grial a través de la interfaz denominada Búsqueda Simple , ya descrita en términos generales más arriba.
Con el fin de ejemplificar esta función, se ha realizado un conteo de frecuencia de un texto de un corpus especializado escrito de la base El Grial. La Figura 7 muestra el resultado de esta búsqueda:
Figura 7. Uso del recurso Frecuencia de ocurrencia
Como bien se sabe, preposiciones, artículos y conjunciones, o sea, palabras funcionales suelen ser las que mayor frecuencia presentan en la mayoría de los textos. Así resulta ser el caso en este texto de muestra en que sólo observamos las primeras catorce mayorías, incluidos los signos de puntuación y los espacios en blanco, y ninguna es una palabra de contenido. Resulta interesante comentar que este ejercicio está realizado a partir de un artículo de investigación científica del área de ciencias biológicas de una revista indexada. Por ello, es posible verificar el alto número de oraciones (seguramente breves) que se revelan a partir del número importante de puntos registrados y también el lugar relevante que el número 1 tiene en este listado con un total de 55 ocurrencias. Muy posiblemente también habrá una cantidad de información explicativa o aposicional, incrustada por medio de marcadores tales como los paréntesis redondos.
Otra de las herramientas de manejo de corpus, de gran utilidad y versatilidad para el estudio lingüístico, lo constituyen las llamadas concordancias o también denominadas KWIC (del inglés, Key Word in Context ). A través de este procedimiento se obtienen líneas de concordancia de una palabra objeto (en estudio) en su contexto lingüístico, en el que se consigna una colección de todas las apariciones de la palabra en búsqueda en un texto o conjunto de textos, junto con un número determinado (normalmente por el investigador) de palabras de cotexto anterior y posterior (la palabra en estudio o nodo normalmente se entrega en medio, resaltada en pantalla con un formato o color diferente del resto del cotexto). A través de este medio, se puede visualizar a la vez una gran cantidad de ejemplos de uso de una palabra o un grupo de palabras. La mayoría de los programas computacionales para este procedimiento permiten obtener un número determinado de líneas (50 o 100, o todas aquellas que contenga el texto o el corpus en estudio) y ordenarlas posteriormente de formas diversas: por ejemplo, alfabéticamente, de acuerdo con la palabra inmediatamente anterior o posterior a la palabra núcleo. Del mismo modo que en el caso anterior, la Figura 8, obtenida a través del programa El Grial, nos permite visualizar la búsqueda en contexto de la palabra puente en uno de los corpus del sitio del mismo nombre. Se ha definido esta búsqueda con un cotexto de 6 palabras a cada lado y se ha especificado buscar por forma y no por lema (opción también disponible en este programa).
Figura 8. Búsqueda de Concordancias
Una característica provechosa del programa El Grial es que no limita la cantidad de líneas entregadas en la búsqueda y las provee todas. Por razones de espacio, aquí solo se registran las primeras once, pero es posible acceder a visualizar las 41 apariciones en este corpus, tal como se indica en la esquina superior izquierda de la pantalla. En este caso, la palabra en búsqueda es entregada en una columna central y destacada en color rojo.
La última herramienta de búsqueda que comentamos es la noción de colocación . Si bien ella ha sido abordada de modo diferente en la literatura, entendemos sucintamente por ella la co-aparición, es decir, aparición simultánea de dos o más palabras en un segmento de texto en el que la distancia entre los elementos de la colocación no sobrepasa las cuatro o cinco palabras. En estos contextos, estas unidades fraseológicas presentan un alto interés de estudio y su productividad como indagación de combinaciones lingüísticas es ilimitada en los beneficios para entre otros- la construcción de diccionarios y gramáticas. Del mismo modo, su utilidad para el diseño de materiales educativos y para el proceso de enseñanza/aprendizaje de las lenguas maternas y segundas o extranjeras y la traducción son altamente relevantes. Cabe destacar que las posibilidades de indagación a través de esta herramienta son tan diversas y versátiles como el programa con que se cuente lo permita, hecho que por lo demás se aplica a las dos otros procesamientos comentados más arriba. En el caso de El Grial, a través de su denominada Búsqueda Compleja, se entrega una variada y rica gama de alternativas de estudio. Con el fin de mostrar una opción diversa, ejemplificaremos la búsqueda colocacional de una cadena de tres categorías gramaticales que suelen constituir un grupo o frase nominal: Sustantivo/Adjetivo/Adjetivo La Figura 9 entrega el resultado de una búsqueda compleja en un texto del corpus El Grial:
Figura 9. Resultado de una Búsqueda Compleja: colocaciones
Como se aprecia en la esquina izquierda superior, se obtuvieron 14.114 combinaciones de esta secuencia triádica en el texto objeto de análisis. La lista de búsqueda brinda una columna central con la cadena indagada, destacada en color rojo. La pantalla aquí copiada nos permite visualizar diez de ellas. Los reproducimos nuevamente, dada la posible dificultad en su lectura:
-
presión relativa próxima
- área metálica expuesta
-
termocupla deslizante situada
-
níquel metálico expuesto
-
estructura porosa monomodal
-
NIO puro reducido
-
actividad catalítica constante
- diámetro cristalino medio
-
actividad catalítica estable
-
conversiones experimentales obtenidas
Evidentemente son múltiples las conjeturas que pueden establecerse a partir de estos datos. Baste apuntar que dos de ellos actúan como sujetos gramaticales y que en tres de ellos se encuentran participios pasados en función adjetiva postmodificadora (sin duda una ocurrencia significativa en este tipo de texto: artículo de investigación científica del área de ciencias exactas).
Con la ejemplificación de algunas de las herramientas de búsqueda disponibles en El Grial, cerramos este capítulo. Estamos ciertos que sería posible realizar una pormenorizada explicación y mayor ejemplificación de las múltiples funciones y posibilidades que brinda el sitio y sus herramientas. En parte, no ahondamos en ello pues consideramos que éstas son prácticamente infinitas y preferimos insinuar algunas de las más relevantes y esperamos motivar así la curiosidad del lector para que por sí mismo explore el sitio e indague alternativas.
En la actualidad, en el sitio El Grial se han implementado nuevas alternativas de apoyo a la investigación. Una de las opciones que pronto brindará será la comparación de frecuencias normalizadas de los todos los textos (y corpus) disponibles. Esta función estará disponible a partir de todas las etiquetas de base del programa. Así, no será necesario que cada investigador realice las búsquedas básicas reiterada e innecesariamente, ya que estas habrán sido ya efectuadas y almacenas en bases de datos. A partir de ella, se podrá establecer comparaciones multiregistros según los intereses de cada investigador. También se está implementando una herramienta informática denominada Manchador de Textos . Ella permite buscar determinados rasgos lingüísticos en corpus digitalizados y visualizar dicha búsqueda sin desmembrar el texto analizado, es decir, sin crear listas de palabras. Otra característica de esta búsqueda es que se puede indagar más de un rasgo a la vez y lograr la visualización de la interacción de dos o más rasgos lingüísticos en un corpus. Al proceso de búsqueda y detección de uno o más rasgos lingüísticos en un texto y la visualización de ellos en el corpus se le ha llamado manchado del texto. Cuando un texto que ha sido manchado se transforma en un texto sobre el que se ha realizado una búsqueda de un conjunto de rasgos lingüísticos y en el cual se visualiza (a través del proceso de manchado con colores diversos ) la interacción que existe entre los rasgos en estudio. Por otra parte, luego del manchado del texto, esta herramienta computacional permite asignarle un valor matemático a los rasgos que han sido manchados , es decir, otorga un cuociente a partir de la co-ocurrencia sistemática de un grupo de rasgos dividido por el total de palabras en cada párrafo de un texto y luego del texto en tu totalidad. Entonces, son producto del Manchador de Textos , por un lado el manchado del texto con la consiguiente distribución co-ocurrente de los rasgos lingüísticos buscados y, por otro, la obtención de un índice que indica el grado variable de la co-ocurrencia con que se presentan los rasgos seleccionados.
Como se aprecia, el continuo desarrollo de la interfaz El Grial refleja en parte las preocupaciones de los miembros de la Escuela Lingüística de Valparaíso por el avance de las investigaciones y el apoyo a la tecnologización de la misma. En este sentido, nuestro fin último busca contribuir a la comunidad científica internacional.