A partir del desarrollo alcanzado en los estudios lingüísticos y en la Lingüústica Computacional en nuestra provincia de Santiago de Cuba y teniendo en cuenta la imperiosa necesidad de poseer instrumentos computacionales para llevar adelante investigaciones sobre el lenguaje y el procesamiento de grandes volúmenes de información con un mayor rigor científico, se hace imprescindible continuar la creación de nuevos sistemas de Procesamiento de Lenguaje Natural (PLN).
El presente proyecto ofrecerá no sólo a los investigadores lingüísticos de todo el país, sino también a otros usuarios del Procesamiento del Lenguaje Natural, cuatro herramientas que propiciarán un importante salto cualitativo en los estudios y análisis del lenguaje, además de permitir el procesamiento de información escrita en lenguaje natural.
En el proyecto se trabajará en las siguientes líneas de investigación:
1. Clasificación: Desarrollar nuevos algoritmos de categorización y agrupamiento que generen grupos de mayor calidad que los algoritmos existentes y sean capaces de lidiar con grandes colecciones de documentos que cambian en el tiempo. Para mejorar la calidad de los grupos obtenidos y su comprensión se utilizarán técnicas de descripción conceptual de los documentos y resúmenes de un conjunto de documentos.
2. Recuperación de Información: Se pretende aumentar la calidad de los resultados obtenidos proponiendo nuevas técnicas de recuperación que ayuden a los usuarios a encontrar los documentos deseados. Los algoritmos deben ser capaces de procesar grandes volúmenes de información que se actualiza constantemente.
3. Procesamiento eficiente de grandes volúmenes de documentos: Se propondrán técnicas de indexado de documentos y algoritmos paralelos para poder procesar grandes colecciones de documentos de forma eficiente. Estas técnicas permitirán tanto la clasificación como la recuperación de grandes volúmenes de documentos.
El diseño y procesamiento de encuestas es un tema que ha ganado actualidad en los últimos años, que cuando se realiza por métodos tradicionales es complejo, engorroso e impreciso sobre todo cuando el volumen de información que se manipula es grande.
El objetivo de este proyecto es estudiar la problemática de la gestión de encuestas y sus diferentes momentos: Diseño, Implementación y Procesamiento de los resultados. Se realiza además la caracterización desde el punto de vista informático del proceso y como resultado final se espera obtener un sistema informático que permita la automatización del mismo.
El procesamiento automático de noticias es un tema que ha ganado actualidad en los últimos ańos, a partir del vertiginoso crecimiento de la información en línea disponible en medios electrónicos e Internet.
El objetivo de este proyecto es desarrollar un sistema informático para el procesamiento automático de un flujo de noticias en línea provenientes de diversas agencias de prensa. El sistema permitirá agrupar las noticias en sucesos y brindará los resúmenes de dichos sucesos para construir los cortes informativos y facilitar el trabajo del analista de información.
Este asistente virtual permitirá a los usuarios obtener información relacionada con los sistemas desarrollados por la empresa Datys. Los usuarios van a interactuar con un asistente mediante una interfaz Web amigable, con la posibilidad de formular preguntas en lenguaje natural y obtener respuestas concretas. Para llevar a cabo esta tarea, se utilizarán novedosas técnicas y herramientas de Procesamiento del Lenguaje Natural que permitirán acceder, almacenar y mostrar toda la información relevante, así como mantenerla actualizada, minimizando el esfuerzo humano requerido para atender el sistema.
Actualmente, el uso de las técnicas de la computación le ha dado impulso a diferentes proyectos que involucran el uso de conocimiento de variados dominios. En este proyecto se propone un sistema para realizar evaluaciones de textos en el idioma castellano y algunas de sus variantes, a la vez que queda abierta la posibilidad de manipular otros idiomas, lo cual le da un carácter multilingüe.
Este tipo de sistema es escaso debido a su alto costo y, de hecho, constituiría el único de su tipo que analice textos en variantes del castellano.
El sistema tiene como objetivo realizar análisis de la ortografía y las características de redacción de los estudiantes de la enseńanza primaria, secundaria básica y pre-universitario del Ministerio de Educación de Cuba. Este evaluador usa una arquitectura cliente-servidor apoyada en tecnología Web, utiliza el análisis brindado por la Suite de Procesamiento de Lenguaje Natural desarrollado por DATYS-SC e incluye nuevos indicadores ling üísticos proporcionados por especialistas del Centro de Ling üística Aplicada de Santiago de Cuba, los que favorecerán, a su vez, la evaluación de los textos de manera integral.
Este sistema permite a los estudiantes la autoevaluación de la redacción de sus textos, propone sugerencias para resolver las deficiencias detectadas y permite la resolución de ejercicios. Para los profesores, el sistema ofrece estadísticas relacionadas con sus estudiantes.
Nuestro objetivo es desplegar este sistema en los laboratorios de computación de las escuelas del Ministerio de Educación de Cuba, inicialmente a nivel territorial y luego de manera global en el sistema nacional. Utilizando el Evaluador se podrá contar con estadísticas del estado de los conocimientos ling üísticos de los estudiantes de los niveles antes mencionados y favorecer el aprendizaje y la práctica de la lengua materna.
Telephone:+53-(22)-644225
Email:
info@cerpamid.co.cu
Chat:
www.cerpamid.co.cu/Chat
Universidad de Oriente,
Patricio Lumumba s/n,
Santiago de Cuba 90500,
Cuba