AVALIAÇÃO DO TD-BERT COM DIFERENTES MODELOS DE REPRESENTAÇÃO TEXTUAL PARA TAREFAS DE CLASSIFICAÇÃO DE TEXTOS
Resumo
A quantidade de dados gerados na internet cresceu exponencialmente na última década. Técnicas de Mineração de Textos e modelos de aprendizado de máquina são utilizados para obter conhecimento útil utilizando um grande volume de dados. Nesse contexto, a Mineração de Textos (MT), uma das principais atividades da Mineração de Dados (MD), é o processo que busca descobrir conhecimento útil e padrões ocultos a partir de um grande volume de textos. Inicialmente, modelos de matriz atributo-valor (BoW) foram apresentados na literatura para gerar representações vetoriais de textos. No entanto, as matrizes possuem alta dimensionalidade e não representam recursos semânticos dos textos. Atualmente, modelos com base na arquitetura Transformers são considerados como o estado-da-arte para representações textuais. No entanto, esses modelos geram vetores singulares e difíceis de serem compreendidos. Recentemente, uma representação denominada TD-BERT foi apresentada na literatura, considerando aspectos semânticos de dados textuais. Dessa forma, este trabalho propõe uma avaliação aprimorada do TD-BERT considerando seis representações vetoriais de textos para três datasets de diferentes domínios. A metodologia deste trabalho avalia diferentes modelos de representação textual aplicados em tarefas de classificação. As principais atividades concentram-se nas etapas de pré-processamento e avaliação experimental. Conclui-se que foram selecionados quatro algoritmos de diferentes paradigmas de aprendizagem e seis modelos de representação textual, considerando a abordagem TD-BERT, que se mostrou eficaz e obteve resultados similares aos demais.
Referências
AGGARWAL, C. C. Data Classification: Algorithms and Applications. 1. ed. [S.l.]: Chapman & Hall/CRC, 2014.
AGGARWAL, C. C. Mining text data. In: SPRINGER. Data mining. [S.l.], 2015. p. 429–455.
AGGARWAL, C. Machine Learning for Text. 1st. ed. United States: Springer Publishing Company, Incorporated, 2018.
ARAUJO, A. et al. From bag-of-words to pre-trained neural language models: Improving automatic classification of app reviews for requirements engineering. In: SBC. Anais do XVII Encontro Nacional de Inteligência Artificial e Computacional. [S.l.], 2020. p. 378–389. Disponível em:https://sol.sbc.org.br/index.php/eniac/article/view/12144. Acesso em: 26 ago. 2023.
ARAUJO, A. et al. Opinion mining for app reviews: an analysis of textual representation and predictive models. Automated Software Engineering, Springer, v. 29, n. 1, p. 1–30, 2022. Disponível em:https://doi.org/10.1007/s10515-021-00301-1. Acesso em: 26 ago. 2023.
DEVLIN, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. Disponível em: https://doi.org/10.48550/arXiv.1810.04805. Acesso em: 26 ago. 2023.
FILHO, I. J. et al. Sequential short-text classification from multiple textual representations with weak supervision. In: Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2022. p. 165-179. Disponível em: https://link.springer.com/chapter/10.1007/978-3-031-21686-2_12. Acesso em: 27 ago. 2023.
JANEV, V. et al. Knowledge graphs and big data processing. Cham-Suíça: Springer Nature, 2020. Disponível em: https://link.springer.com/book/10.1007/978-3-030-53199-7. Acesso em: 27 ago. 2023.
KILANI, N. A. et al. Automatic classification of apps reviews for requirement engineering: Exploring the customers need from healthcare applications. In: IEEE. 2019 sixth international conference on social networks analysis, management and security (SNAMS), Granada, Spain, 2019, pp. 541-548. Disponível em: https://ieeexplore.ieee.org/document/8931820. Acesso em: 27 ago. 2023.
LIU, Z. et al. A robustly optimized BERT pre-training approach with post-training. In: China National Conference on Chinese Computational Linguistics. Cham-Suiça: Springer International Publishing, 2021. p. 471-484. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-84186-7_31. Acesso em: 27 ago. 2023.
MIKOLOV, T. et al. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, v. 26, 2013. Disponível em: https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf. Acesso em: 27 ago. 2023.
PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, v. 12, p. 2825–2830, 2011. Disponível em: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf?ref=https:/. Acesso em: 27 ago. 2023.
REZENDE, S. O. et al. Mineração de dados. In: REZENDE, S. O. (Org.). Sistemas Inteligentes: Fundamentos e Aplicações. Barueri-SP: Manole, 1ª edição, 2003. Cap. 12, p. 307–335.
ROSSI, R. G.; MARCACINI, R. M.; REZENDE, S. O. Benchmarking text collections for classification and clustering tasks. São Carlos-SP: Instituto de Ciências Matemáticas e de Computação-IMC2, Icmc Technical Report n° 393, 2013. Disponível em:https://repositorio.usp.br/bitstreams/342060e9-eebc-4530-8074-bd60bb8b125e. Acesso em: 27 ago. 2023.
SANH, V. et al. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, Cornell University, 2019. Disponível em: https://arxiv.org/abs/1910.01108. Acesso em: 27 ago. 2023.
SINOARA, R. A. et al. Knowledge-enhanced document embeddings for text classification. Knowledge-Based Systems, Elsevier, v. 163, p. 955–971, 2019. Disponível em: https://doi.org/10.1016/j.knosys.2018.10.026. Acesso em: 27 ago. 2023.
SIONARA, R. A. Aspectos semânticos na representação de textos para classificação automática. Tese (Doutorado Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional-PPG/CCMC) - Universidade de São Paulo-USP São Carlos, 2018. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/publico/RobertaAkemiSinoara_revisada.pdf. Acesso em: 27 ago. 2023.
TURNEY, P. D.; PANTEL, P. From frequency to meaning: Vector space models of semantics. Journal of artificial intelligence research, v. 37, p. 141–188, 2010. Disponível em: https://doi.org/10.1613/jair.2934. Acesso em: 27 ago. 2023.