Descripción automática de imágenes con comprensión lectora: hacia máquinas con percepción visual mejorada e interpretación de imágenes con texto
Date
2022-01
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Benemérita Universidad Autónoma de Puebla
Abstract
"El problema de la descripción automática de imágenes con comprensión lectora consiste en obtener descripciones textuales dada una imagen de entrada, con la condición de que dichas descripciones deben tomar en cuenta el texto presente en la escena visual. Para resolver este problema, es necesario que los sistemas sean capaces de leer, comprender y utilizar el texto leído, además de comprender la escena, los actores y los objetos involucrados en la misma, por último, el sistema debe ser capaz de integrar todo y describirlo en lenguaje natural. Dada la complejidad del problema, los sistemas y propuestas disponibles en la literatura hacen uso de técnicas y modelos que resultan sumamente costosos, tanto en términos de memoria como de procesamiento. En este trabajo se proponen dos arquitecturas de aprendizaje profundo (L-M4C y L-CNMT) que son capaces de resolver el problema, obteniendo puntajes cercanos al estado-del-arte y superando a los diversos métodos disponibles en la literatura, todo esto mientras se reduce el uso de memoria (del módulo de lectura) hasta en un 94 %. La segunda aportación de este trabajo consiste en presentar la primera arquitectura bilingüe (ML M4C) para el problema de la descripción automática de imágenes con comprensión lectora".
Description
Keywords
Citation
Collections
Document Viewer
Select a file to preview:
Can't see the file? Try reloading