Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto

Gallardo García, Rafael

Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto

dc.audience	generalPublic	es_MX
dc.contributor	Beltrán Martínez, Beatriz
dc.contributor	Martínez Torres, Rodolfo
dc.contributor.advisor	BELTRAN MARTINEZ, BEATRIZ; 80293
dc.contributor.author	Gallardo García, Rafael
dc.date.accessioned	2022-08-26T19:26:07Z
dc.date.available	2022-08-26T19:26:07Z
dc.date.issued	2022-01
dc.description.abstract	"El problema de la descripción automática de imágenes con comprensión lectora consiste en obtener descripciones textuales dada una imagen de entrada, con la condición de que dichas descripciones deben tomar en cuenta el texto presente en la escena visual. Para resolver este problema, es necesario que los sistemas sean capaces de leer, comprender y utilizar el texto leído, además de comprender la escena, los actores y los objetos involucrados en la misma, por último, el sistema debe ser capaz de integrar todo y describirlo en lenguaje natural. Dada la complejidad del problema, los sistemas y propuestas disponibles en la literatura hacen uso de técnicas y modelos que resultan sumamente costosos, tanto en términos de memoria como de procesamiento. En este trabajo se proponen dos arquitecturas de aprendizaje profundo (L-M4C y L-CNMT) que son capaces de resolver el problema, obteniendo puntajes cercanos al estado-del-arte y superando a los diversos métodos disponibles en la literatura, todo esto mientras se reduce el uso de memoria (del módulo de lectura) hasta en un 94 %. La segunda aportación de este trabajo consiste en presentar la primera arquitectura bilingüe (ML M4C) para el problema de la descripción automática de imágenes con comprensión lectora".	es_MX
dc.folio	20220128151244-0408-TL	es_MX
dc.format	pdf	es_MX
dc.identificator	7	es_MX
dc.identifier.uri	https://hdl.handle.net/20.500.12371/16235
dc.language.iso	spa	es_MX
dc.matricula.creator	201656917	es_MX
dc.publisher	Benemérita Universidad Autónoma de Puebla	es_MX
dc.rights.acces	openAccess	es_MX
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0	es_MX
dc.subject.classification	INGENIERÍA Y TECNOLOGÍA	es_MX
dc.subject.dbgunam	Procesamiento de textos (Computación)	es_MX
dc.subject.lcc	Inteligencia computacional	es_MX
dc.subject.lcc	Visión por computadora--Métodos gráficos	es_MX
dc.subject.lcc	Procesamiento de imágenes--Técnicas digitales	es_MX
dc.subject.lcc	Procesamiento de lenguaje natural (Computación)	es_MX
dc.subject.lcc	Aprendizaje automático (Inteligencia artificial)	es_MX
dc.thesis.career	Licenciatura en Ingeniería en Ciencias de la Computación	es_MX
dc.thesis.degreediscipline	Área de Ingeniería y Ciencias Exactas	es_MX
dc.thesis.degreegrantor	Facultad de Ciencias de la Computación	es_MX
dc.thesis.degreetoobtain	Ingeniero (a) en Ciencias de la Computación	es_MX
dc.title	Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto	es_MX
dc.type	Anotación	es_MX
dc.type.degree	Licenciatura	es_MX