Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto
dc.audience | generalPublic | es_MX |
dc.contributor | Beltrán Martínez, Beatriz | |
dc.contributor | Martínez Torres, Rodolfo | |
dc.contributor.advisor | BELTRAN MARTINEZ, BEATRIZ; 80293 | |
dc.contributor.author | Gallardo García, Rafael | |
dc.date.accessioned | 2022-08-26T19:26:07Z | |
dc.date.available | 2022-08-26T19:26:07Z | |
dc.date.issued | 2022-01 | |
dc.description.abstract | "El problema de la descripción automática de imágenes con comprensión lectora consiste en obtener descripciones textuales dada una imagen de entrada, con la condición de que dichas descripciones deben tomar en cuenta el texto presente en la escena visual. Para resolver este problema, es necesario que los sistemas sean capaces de leer, comprender y utilizar el texto leído, además de comprender la escena, los actores y los objetos involucrados en la misma, por último, el sistema debe ser capaz de integrar todo y describirlo en lenguaje natural. Dada la complejidad del problema, los sistemas y propuestas disponibles en la literatura hacen uso de técnicas y modelos que resultan sumamente costosos, tanto en términos de memoria como de procesamiento. En este trabajo se proponen dos arquitecturas de aprendizaje profundo (L-M4C y L-CNMT) que son capaces de resolver el problema, obteniendo puntajes cercanos al estado-del-arte y superando a los diversos métodos disponibles en la literatura, todo esto mientras se reduce el uso de memoria (del módulo de lectura) hasta en un 94 %. La segunda aportación de este trabajo consiste en presentar la primera arquitectura bilingüe (ML M4C) para el problema de la descripción automática de imágenes con comprensión lectora". | es_MX |
dc.folio | 20220128151244-0408-TL | es_MX |
dc.format | es_MX | |
dc.identificator | 7 | es_MX |
dc.identifier.uri | https://hdl.handle.net/20.500.12371/16235 | |
dc.language.iso | spa | es_MX |
dc.matricula.creator | 201656917 | es_MX |
dc.publisher | Benemérita Universidad Autónoma de Puebla | es_MX |
dc.rights.acces | openAccess | es_MX |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0 | es_MX |
dc.subject.classification | INGENIERÍA Y TECNOLOGÍA | es_MX |
dc.subject.dbgunam | Procesamiento de textos (Computación) | es_MX |
dc.subject.lcc | Inteligencia computacional | es_MX |
dc.subject.lcc | Visión por computadora--Métodos gráficos | es_MX |
dc.subject.lcc | Procesamiento de imágenes--Técnicas digitales | es_MX |
dc.subject.lcc | Procesamiento de lenguaje natural (Computación) | es_MX |
dc.subject.lcc | Aprendizaje automático (Inteligencia artificial) | es_MX |
dc.thesis.career | Licenciatura en Ingeniería en Ciencias de la Computación | es_MX |
dc.thesis.degreediscipline | Área de Ingeniería y Ciencias Exactas | es_MX |
dc.thesis.degreegrantor | Facultad de Ciencias de la Computación | es_MX |
dc.thesis.degreetoobtain | Ingeniero (a) en Ciencias de la Computación | es_MX |
dc.title | Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto | es_MX |
dc.type | Anotación | es_MX |
dc.type.degree | Licenciatura | es_MX |
Files
Original bundle
1 - 2 of 2
- Name:
- 20220128151244-0408-TL.pdf
- Size:
- 35.1 MB
- Format:
- Adobe Portable Document Format
- Description:
- Name:
- 20220128151244-0408-CARTA.pdf
- Size:
- 1008.6 KB
- Format:
- Adobe Portable Document Format
- Description:
License bundle
1 - 1 of 1
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: