FECHA DE CLASIFICACIÓN: JUNIO DE 2007
UNIDAD RESPONSABLE: DIV. DE OPERACIÓN Y PROMOCIÓN A LA INVESTIGACIÓN
CARACTER CONFIDENCIAL
PARTES CONFIDENCIALES: CARÁTULA Y ANEXOS
FUNDAMENTO LEGAL: Art. 3 Fracc. II, Art. 18 Fracc. II y 21, LFTAIPG, Lineamiento 32º Fracc. VII, VIII, XVII
FIRMA DEL TITULAR DE LA UNIDAD:___________________________________
 
INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
PROTOCOLO PARA PROYECTOS DE INVESTIGACIÓN

PROYECTO INDIVIDUAL   X   CORTO PLAZO    
PROYECTO EN PROGRAMA ESPECIAL      
PROYECTO DE INNOVACIÓN      
PROYECTO MULTIDISCIPLINARIO       MEDIANO PLAZO   X  
PROYECTO TRANSDISCIPLINARIO      
PROYECTO DE RED      
PROPUESTA DE ESTUDIO      
Información General del Proyecto de Investigación
  CIC    Departamento de Investigación en Ciencias de la Computación 
Escuela, Centro o Unidad Sección. División o Departamento
Título
Modelos del lenguaje, sentimientos y opiniones con métodos de aprendizaje automático y aprendizaje profundo

Registro asignado por la SIP:  20200859  Registro Anterior  20196437   
    Porcentaje de avance:  50   
Datos del director(a) del Proyecto de investigación:
  Gelbukh     -     Alexander  
Apellido Paterno Apellido Materno Nombres
Tipo de plaza en el IPN:  Titular C - (BASE)  Grado académico:  Doctorado 
Horas de nombramiento:  40  RFC:  GEAL620912  CURP:  GEXA620912HNELXL08 
SNI:  III  BECAS: COFAA  IV  EDD  ---  EDI  IX  (Indicar nivel)
Teléfono oficina (Ext):  56544  Correo electrónico Teléfono particular:  55-1810-4587 
Nivel académico en el que se realizará el Proyecto de Investigación:
Medio Superior         Superior         Posgrado    X   
Ubique su propuesta solamente en uno de los campos que a continuación se enuncian:
Ingeniería y Tecnología     X    Ciencias Sociales         
Ciencias Naturales          Ciencias Agrícolas         
Ciencias Médicas          Humanidades         
Educación         
Clasificación CONACyT:
Sector:   Sector Comunicaciones y Transportes  
Subsector:   Fomento a la integración de servicios y acceso a las nuevas tecnologías de la información                                                                         
Tipos de investigación:
Básica     X    Aplicada          Autoequipamiento         
Desarrollo Tecnológico          Educativa           
¿Su proyecto aborda los siguientes temas?
Perspectiva de Género      Sustentabilidad     Ninguno  X
Objetivo de desarrollo sostenible:   ---  
Red a la que pertenece ó podría pertenecer el proyecto:   ---  
Scopus:   24604968400  
Orcid:   0000-0001-7845-9039  
  Alexander Gelbukh -                                             
Director(a) del Proyecto de
Investigación
Vo. Bo. de la Academia o
Colegio de Profesores
Nombre y firma de Director(a) de la
Escuela, Centro o Unidad
Nota: El título deberá ser breve, conciso y representativo del tema central de investigación


La presentación deberá hacerse de acuerdo a la siguiente estructura:

1. Descripción del proyecto
1.1 Resumen
Las tecnologías de lenguaje empiezan a jugar el papel clave en el desarrollo de los sistemas computacionales. Son tecnologías insignia (Cortana, Siri) de las empresas líderes (Microsoft, Apple, Google). Un aspecto clave para que las computadoras entiendan el lenguaje humano es la detección de sentimientos, emociones, subjetividad, ironía, sarcasmo, así como personalización y estimación de veracidad, ya que estos aspectos (y no sólo la semántica) son muy comunes e importantes en el uso del lenguaje en el mundo real. Su detección permite extraer información muy importante de Internet y las redes sociales (minería de opiniones), contribuyendo a la democracia efectiva y en tiempo real en los ámbitos social, económico y político: la toma de decisiones puntuales basadas en la opinión popular extraída automática y directamente de los comentarios en las redes sociales e Internet. El aprendizaje automático y aprendizaje profundo proveen herramientas muy eficientes para este tipo de análisis del lenguaje. En este proyecto, se desarrollarán nuevos modelos de lenguaje y métodos para las tareas mencionadas. Como línea base, se usarán métodos basados en las arquitecturas comunes de clasificación. Luego, se implementarán y se estudiarán los métodos para este tipo de análisis basados en las arquitecturas básicas de aprendizaje profundo, tales como redes neuronales convolucionales. A éstos, se les agregarán las implementaciones recurrentes, con memorias de tipo LSTM y GRU, así como el mecanismo de atención. Con estos elementos, se implementarán arquitecturas que modelen la estructura lingüística y los rasgos heterogéneos. Estas arquitecturas serán aplicadas y evaluadas con varias tareas en las áreas mencionadas, tales como clasificación afectiva, clasificación de noticias y perfilado del autor, así como a tareas del análisis lingüístico del texto, tales como la resolución de anáfora.

1.2 Objetivo general
Desarrollo de nuevos modelos y métodos basados en el aprendizaje automático y aprendizaje profundo para el análisis del lenguaje, con aplicaciones al análisis de sentimientos, opiniones, redes sociales y noticias

1.3 Objetivos específicos
En esta segunda etapa del proyecto, los objetivos específicos son:

- Desarrollo e implementación de métodos novedosos para análisis de textos, sentimientos y opiniones basados en aprendizaje automático e inteligencia artificial

- Desarrollo e implementación de métodos novedosos para modelación de lenguaje y análisis de sentimientos y emociones basados en arquitecturas neuronales básicas del

2. Subproductos comprometidos
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   2 
Congresos  0   1  Seminiarios  0   2 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   1 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   5 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   1   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0       
2. Subproductos comprometidos año 2
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   3 
Congresos  0   1  Seminiarios  0   2 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   2 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   1 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   5 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   1   2 
Prestante de Servicio Social  0   0 
Otros (especificar)  0     ND  
2. Subproductos comprometidos año 3
Nacional Internacional Nacional Internacional
Artículo de Divulgación  0   0  Artículo Científico  0   0 
Congresos  0   0  Seminiarios  0   0 
Cursos  0   0  Manuales  0   0 
Libros  0   0  Programa de Radio y TV  0   0 
Conferencias o Ponencias  0   0 
Piloto Laboratorio Piloto Laboratorio
Proceso  0   0  Prototipo  0   0 
Patente  0   0  Certificado de Invención  0   0 
Hardware  0   0  Software  0   0 
Medio       Superior Posgrado
Tesistas  0   0   0 
Practicantes Profesionales  0   0   0 
Alumnos PIFI  0   0   0 
Prestante de Servicio Social  0   0 
Otros (especificar)  0     ND  
 3. Monto y distribución del presupuesto solicitado (anexar): honorarios (sólo centros foráneos), materiales y suministros, servicios generales y equipamiento (anexar cotización)

3.1 ¿Ha participado en convocatorias externas al Instituto para el financiamiento de proyectos de investigación?
No    X   Si        Nombre de la convocatoria       

4. Recursos humanos. Investigadores y alumnos participantes.

  4.1 Investigadores participantes

Número Nombre Actividad específica a desarrollar
1 Alexander Gelbukh - Director del proyecto
2 Olga Kolesnikova -
  
Diseño de los algoritmos para el procesamiento lingüístico de los datos unimodales y multimodales y la fusión de rasgos.
3 Liliana Chanona Hernández
  
Desarrollo de los métodos para el análisis de texto basados en la interligencia artificial y aprendizaje automático en general.
4 Ildar Batyrshin -
  
Diseño de los algoritmos para el análisis de datos secuenciales en general, tales como el uso de las memorias en los módulos basados en el aprendizaje profundo.
5 Grigori Sidorov -
  
Desarrollo de los métodos basados en el análisis sintáctico del texto, incluido el uso de los rasgos basados en in-gramas y n-gramas sintácticos de diversos tipos.


  4.2 Alumnos participantes

Número Nombre Status* Actividad específica a desarrollar
1 Maaz Amjad - TS Implementación y pruebas de los métodos de análisis de subjetividad y veracidad del texto, tal como la detección de notifias falsas, incluidos los datos multilingües y los aspectos de comparación entre culturas y lenguajes.
2 Jason Efrain Angel Gil PF Participación en metas.
3 Segun Taofeek Aroyehun - TS Implementación de los métodos básicos de aprendizaje automático y aprendizaje profundo, tales como las redes neuronales convolucionales y sus variantes.
4 Noman Ashraf - TS Desarrollo de los métodos del perfilado del autor en relación al perfil emocional, en particular, la detección del estado de deprsión.
5 Sabur Butt - TS Implementación de los métodos del aprendizaje profundo para el perfilado del autor en las redes sociales.
6 María Elena Ensastegui Ortega TS Implementación y la realización de pruebas con los métodos de análisis de lenguaje basados en la inteligencia artificial y la representación de la estructura del texto.
7 DANIEL YACOB ESPINOSA GONZALEZ PF Participación en metas.
8 Navonil Majumder - TS Implementación de los métodos avanzados para el uso de aprendizaje profundo en el análisis de sentimientos, opiniones y pefilado del autor.
9 Daniel Alejandro Pérez Álvarez TS Implementación de los métodos basados en memorias (redes neuronales recurrentes) y el mecanismo de atención para el análisis de datos secuenciales.
10 Abu Bakar Siddiqur Rahman - TS Desarrollo e implementación de los programas del aprendizaje automático con las técnicas del aprendizaje profundo.
11 Carlos Alberto Rodríguez Díaz TS Desarrollo de los métodos del perfilado del autor en relación al región, con los rasgos lingüísticos regionales.
12 Muhammad Hammad Fahim Siddiqui - TS Desarrollo de los métodos del perfilado del autor en relación al género y diferenciación de los bots.

  * PIFIS(PF), Servicio Social (SS), Tesistas (TS), Prácticas Profesionales (PP), Alumnos Participantes (AP)

 5.Programación de Actividades de Investigación   

Número
de meta
Valor % de
cada meta
Descripción de actividades Mes de inicio Mes de terminación
1 5 Investigación bibliográfica
Recopilación de recientes publicaciones sobre los temas relacionados con el proyecto, su lectura y discusión en los seminarios del Laboratorio.
Enero 2019 Enero 2019
2 4 Diseño de conjuntos de datos
Diseño detallado de los conjuntos de datos necesarios para la ejecución del proyecto, con sus formatos de representación y procedimientos de su recopilación.
Febrero 2019 Febrero 2019
3 4 Construcción de conjuntos de datos
Recopilación de los conjuntos de datos de las fuentes en Internet, tales como Twitter y los canales de notificas y los periódicos, y su anotación y organización de acuerdo con el diseño desarrollado en la etapa anterior.
Marzo 2019 Marzo 2019
4 4 Diseño de algoritmos de aprendizaje automático
Diseño de nuevos algoritmos de clasificación de textos, basados en los métodos de aprendizaje automático e inteligencia artificial. Estudio teórico de su comportamiento.
Abril 2019 Abril 2019
5 4 Implementación de algoritmos principales
Implementación de los algoritmos principales de aprendizaje automático desarrollados en la etapa anterior. Esta fase incluye la instalación y configuración de los ambientes de programación correspondientes basados en Python.
Mayo 2019 Mayo 2019
6 5 Experimentación
Aplicación de los programas de aprendizaje automático desarrollados a los conjuntos de datos, usando diferentes parámetros de configuración.
Junio 2019 Junio 2019
7 4 Evaluación preliminar
Evaluación y estudio de los resultados de la experimentación con los algoritmos de aprendizaje automático desarrollados en la etapa anterior.
Julio 2019 Julio 2019
8 4 Análisis de errores y diseño de mejoras
Estudios empíricos y teóricos con el fin de determinar las debilidades de los métodos desarrollados y las áreas de mejora prioritarias, así como el diseño de las mejoras y cambios correspondientes.
Agosto 2019 Agosto 2019
9 4 Implementación de las mejoras
Implementación en software de las mejoras propuestas en la etapa anterior y módulos adicionales, con posible tratamiento y preparación adicional de los conjuntos de datos.
Septiembre 2019 Septiembre 2019
10 4 Experimentación adicional
Realización de experimentos con los módulos adicionales y las etapas de procesamiento cambiadas en la fase anterior, sobre todos los conjuntos de datos.
Octubre 2019 Octubre 2019
11 4 Evaluación y análisis
Análisis de los resultados obtenidos con los experimentos y evaluación final de los métodos de aprendizaje automático diseñados e implementados en el primer año del proyecto.
Noviembre 2019 Noviembre 2019
12 4 Documentación de la etapa
Preparación de las descripciones de los programas realizados y de los informes del proyecto; avance en la escritura de las tesis correspondientes.
Diciembre 2019 Diciembre 2019
13 5 Actualización bibliográfica
Recopilación de las publicaciones sobre los temas relacionados con el proyecto que han aparecido desde la última investigación bibliográfica, su lectura y discusión en los seminarios del Laboratorio. Incluye la actualización bibliográfica en el tema de aprendizaje profundo.
Enero 2020 Enero 2020
14 4 Ampliación de los conjuntos de datos
Recopilación de los datos adicionales para el entrenamiento y evaluación de los métodos de aprendizaje profundo sobre un conjunto extendido de aplicaciones.
Febrero 2020 Febrero 2020
15 4 Arquitectura básica
Diseño e implementación de los métodos basados en las arquitecturas básicas de aprendizaje profundo, tales como las redes neuronales convolucionales.
Marzo 2020 Marzo 2020
16 4 Experimentación y análisis: básico
Ejecución de pruebas con las arquitecturas básicas de aprendizaje profundo sobre las tareas seleccionadas, tales como la clasificación afectiva de textos, análisis de subjetividad y análisis de la estructura del texto.
Abril 2020 Abril 2020
17 4 Implementación de memorias
Adición de los mecanismos de memoria a los módulos desarrollados. Se evaluará la conveniencia de implementación de las memorias LSTM, GRU y sus variantes, tanto unidireccionales como bidireccionales.
Mayo 2020 Mayo 2020
18 4 Experimentación y análisis: memorias
Ejecución de las pruebas con los módulos mejorados sobre el conjunto de datos, para su comparación con los resultados obtenidos con los módulos básicos.
Junio 2020 Junio 2020
19 4 Implementación de mecanismo de atención
Adición del mecanismo de atención a la arquitectura desarrollada, para aumentar su desempeño a través de enfatizar los rangos de los datos más relevantes para la tarea.
Julio 2020 Julio 2020
20 4 Experimentación y análisis: atención
Ejecución de las pruebas con la arquitectura que incluye el mecanismo de atención, para su comparación con la arquitectura básica y la arquitectura con la memoria. Estudio de ablación.
Agosto 2020 Agosto 2020
21 4 Implementación de arquitecturas avanzadas
Implementación de los rasgos avanzados en la arquitectura desarrollada, tales como fusión jerárquica de los rasgos de diferentes enunciados, oraciones o párrafos.
Septiembre 2020 Septiembre 2020
22 5 Pruebas y evaluación
Realización de pruebas con la arquitectura desarrollada, evaluación de sus fortalezas y debilidades, análisis de errores y comparación.
Octubre 2020 Octubre 2020
23 4 Aplicación a varias tareas
Aplicación de la arquitectura desarrollada a diferentes tareas de análisis de lenguaje, para su comparación con el estado de arte en cada tarea y determinación de sus áreas de oportunidad y posibles mejoras.
Noviembre 2020 Noviembre 2020
24 4 Documentación final
Preparación de las descripciones de los programas realizados y de los informes del proyecto; avance en la escritura de las tesis correspondientes.
Diciembre 2020 Diciembre 2020
Porcentaje: 100 %

Nota: La planeación debe hacerse de acuerdo a las actividades del año actual (sumando 100 %), incluso si el proyecto es a mediano plazo.

  6. Presupuesto Solicitado (para 2024 solo aplica capítulo 4000)

Capítulo Descripción / Concepto Total
(Pesos)
2000  El proyecto requiere el manejo de grandes volúmenes de información (de tamaño de varios terabytes de información) y mucha potencia de cálculo. Se prevé la compra de los consumibles para impresión y organización de la información, tales como cartuchos de tinta para impresora, discos de gran volumen para el resguardo de la información, incluidos los resultados de varios pasos del procesamiento de todo el corpus, es decir, varios terabytes por cada paso. Además, se prevé la compra de los consumibles permitidos para esta partida necesarios para el cómputo paralelo en los algoritmos de aprendizaje profundo, tales como las tarjetas GPU para el aprendizaje profundo, tarjetas de memoria de gran capacidad y otros consumibles informáticos.Además, se prevé la compra de libros. 120000   
3000  Se prevén estancias de investigación de los participantes del proyecto en los grupos líderes nacionales e internacionales. Además se prevén viajes a congresos nacionales y/o internacionales para la publicación y difusión de los resultados del proyecto. Por ejemplo, el transporte y viáticos a un congreso en Europa cuesta 30 mil pesos, con lo cual el presupuesto solicitado alcanzaría para un viaje a un congreso por año. 60000   
4000  Se planean viajes de los estudiantes a los congresos de más alto prestigio en el área correspondiente al tema del proyecto. En los congresos de primera, es común que la inscripción sea de hasta 10 mil pesos, con lo cual el presupuesto solicitado alcanzaría para pagar una inscripción del alumno participante al congreso por año. 20000   
5000      
7000      
Total:  $ 200000   

Dictamen del Proyecto:
                                             Aprobado