Determinación del número de centroides en el algoritmo Improved-FPAC para el agrupamiento de documentos de texto
Date
2025-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Benemérita Universidad Autónoma de Puebla
Abstract
“En esta tesis abordamos el problema de cómo mejorar la calidad del agrupamiento de documentos de texto usando el algoritmo Improved-FPAC. Es importante des tacar la necesidad de categorizar documentos de texto de manera eficiente para facilitar la toma de decisiones y la búsqueda de información en grandes volúmenes de datos. Los algoritmos tradicionales, como K-Means, a menudo no representan adecuadamente la estructura de los datos, ya que utilizan un solo centroide por gru po, lo que puede ser insuficiente en situaciones reales. Para solucionar esto, nuestro trabajo propone un método para determinar el número de centroides por cluster con siderando las características específicas del corpus, el número de documentos y el vocabulario, previo a realizar el agrupamiento de documentos y un algoritmo que evalúa en cada iteración el número de centroides para cada grupo para Improved FPAC. Tanto el método como el algoritmo propuesto se validan experimentalmente y muestran mejoras significativas en la calidad de los agrupamientos sin aumentar demasiado el tiempo de ejecución. Estas alternativas se adaptan mejor a las particularidades de cada conjunto de datos, superando las limitaciones de los valores fijos de centroides utilizados en estudios previos. La investigación presenta una me jora importante al algoritmo Improved-FPAC, ofreciendo una forma más adaptativa y eficiente de determinar el número de centroides, lo que resulta en una mejor calidad en el agrupamiento de documentos de texto”.
Description
Keywords
Citation
Collections
Document Viewer
Select a file to preview:
Can't see the file? Try reloading