COMPARATIVO DE MODELOS DE LINGUAGEM EM PORTUGUÊS DO BRASIL:
UMA ANÁLISE DE GPT-2, GPORTUGUESE-2 E CABRITA-LORA-V0-1
Resumo
Este artigo tem como objetivo realizar um comparativo entre três modelos de linguagem treinados a partir de corpora português do Brasil. Foram avaliados o GPT-2, GPorTuguese-2 e Cabrita-Lora-v0-1, por intermédio das métricas Sentence Textual Similarity (STS) e Recognizing Textual Entailment (RTE). Atualmente existe uma carência de estudos que abordem este tema em modelos treinados em português. Sendo esta pesquisa uma contribuição nesta direção. Os resultados mostraram que Cabrita-Lora-v0-1 obteve melhor desempenho em todas as métricas, existindo ainda oportunidades de melhorias e novos estudos em todos os modelos objeto desta pesquisa, pois os desempenhos podem ser afetados por configurações de hiper parâmetros. O comparativo elaborado por este estudo mostrou os pontos fortes e fracos de cada modelo e pode servir como base em novos direcionamentos que abordam este tema. Esta pesquisa pode representar uma contribuição significativa em Processamento de Linguagem Natural (NLP) em português.
Referências
BAKTASH, J.A.; DAWODI, M. Gpt-4: A Review on Advancements and Opportunities in Natural Language Processing. arXiv preprint arXiv:2305.03195, 2023. Disponível em: https://doi.org/10.48550/arXiv.2305.03195. Acesso em: 08 jul. 2024.
IMAN, M.; ARABNIA, H.R.; RASHEED, K. A Review of Deep Transfer Learning and Recent Advancements. Technologies, 2023, 11, 40. Disponível em: https://doi.org/10.3390/technologies11020040 .Acesso em: 08 jul. 2024.
MIKOLOV, T. et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781, 2013. Disponível em: https://doi.org/10.48550/arXiv.1301.3781. Acesso em: 08 jul. 2024.
RADFORD, A. et al. Language models are unsupervised multitask learners. OpenAI blog, v. 1, n. 8, p. 9, 2019. Disponível em: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf . Acesso em: 08 jul. 2024.
SCHNEIDER, E. T. R. et al. A GPT-2 Language Model for Biomedical Texts in Portuguese. In: 21 IEEE 34TH INTERNATIONAL SYMPOSIUM ON COMPUTER-BASED MEDICAL SYSTEMS (CBMS). Aviero (Portugal): IEEE, 2021. pp. 474-479. Disponível em: https://doi.org/10.1109/CBMS52027.2021.00056. Acesso em: 08 jul. 2024.
SENNRICH, R., HADDOW, B., BIRCH, A. Neural Machine Translation of Rare Words with Subword Units. arXiv preprint arXiv:1508.07909, 2015. Disponível em: https://doi.org/10.48550/arXiv.1508.07909. Acesso em: 08 jul. 2024.
SOUZA, F.; NOGUEIRA, R.; LOTUFO, BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: CERRI, R.; PRATI, R.C. (eds). Intelligent Systems. BRACIS 2020. Lecture Notes in Computer Science, vol 12319. Springer, Cham. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-61377-8_28. Acesso em: 08 jul. 2024.
SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. Portuguese Named Entity Recognition using BERT-CRF. arXiv preprint arXiv:1909.10649. 2010. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-61377-8_28. Acesso em: 08 jul. 2024.
VASWANI, A. et al. In: 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS. Long Beach (California): NIPS, 2017. p. 5998-6008. Disponível em: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf. Acesso em: 08 jul. 2024.