COMPARATIVO DE MODELOS DE LINGUAGEM EM PORTUGUÊS DO BRASIL:

UMA ANÁLISE DE GPT-2, GPORTUGUESE-2 E CABRITA-LORA-V0-1

Autores

  • Bruno Leonardo Santos Menezes Fundação de Apoio à Escola Técnica do Estado do Rio de Janeiro-FAETEC
  • Ricardo Gomes de liveira Universidade Federal da Bahia-UFBA
  • Raphael Souza de Oliveira Centro Universitário SENAI CIMATEC
  • Erick Giovani Sperandio Nascimento University of Surrey-UK

Resumo

Este artigo tem como objetivo realizar um comparativo entre três modelos de linguagem treinados a partir de corpora português do Brasil. Foram avaliados o GPT-2, GPorTuguese-2 e Cabrita-Lora-v0-1, por intermédio das métricas Sentence Textual Similarity (STS) e Recognizing Textual Entailment (RTE). Atualmente existe uma carência de estudos que abordem este tema em modelos treinados em português. Sendo esta pesquisa uma contribuição nesta direção. Os resultados mostraram que Cabrita-Lora-v0-1 obteve melhor desempenho em todas as métricas, existindo ainda oportunidades de melhorias e novos estudos em todos os modelos objeto desta pesquisa, pois os desempenhos podem ser afetados por configurações de hiper parâmetros. O comparativo elaborado por este estudo mostrou os pontos fortes e fracos de cada modelo e pode servir como base em novos direcionamentos que abordam este tema. Esta pesquisa pode representar uma contribuição significativa em Processamento de Linguagem Natural (NLP) em português.

Biografia do Autor

  • Bruno Leonardo Santos Menezes, Fundação de Apoio à Escola Técnica do Estado do Rio de Janeiro-FAETEC

    Doutorado e Mestrado acadêmicos em Modelagem Computacional e Tecnologia Industrial com Graduação em Logística, cursos pelo Centro Universitário do Serviço Nacional de Aprendizagem Industrial - Centro Integrado de Manufatura e Tecnologia. Bacharelado em Administração de Empresas do Centro Universitário do Serviço Nacional de Aprendizagem Comercial de São Paulo. Professor e pesquisador na Fundação de Apoio à Escola Técnica do Estado do Rio de Janeiro.

  • Ricardo Gomes de liveira, Universidade Federal da Bahia-UFBA

    Profissional com ampla experiência, exercendo papéis de liderança nas áreas de Tecnologia da Informação (TI), Planejamento Estratégico Empresarial, Gestão de Projetos, Gestão de Processos, Produção de Informações e Conhecimento e Gestão de Mudanças, atuando também em implantação da infraestrutura de TI, desenvolvimento e implantação de sistemas informatizados e liderando equipes com foco na gestão e cultura de planejamento, qualidade e sustentabilidade. Formulação e execução de novos modelos de gestão, promovendo a governabilidade e efetividade das áreas de negócios, operações, pessoas e comunicação. Experiência em implantação de projetos relacionados à Medicina Baseada em Valor (VBHC). Especialista em Business Intelligence (BI), Data Science & Analytics. Especialista em RIS (Radiology Information Systems) e PACS (Picture Archiving and Communication System). Desenvolvimento de aplicações de Business Intelligence em aplicações Power BI, Qlikview, Qlik Sense, Elasticsearch e Kibana. Pesquisador em modelagem computacional, MCDM (Multiple Criteria Decision Making), AHP (Analytic Hierarchy Process). Pesquisador em Machine Learning, Deep Learning, Processamento de Linguagem Natural (NLP), modelos BERT, BERTimbau, GPT-2, utilizando linguagem de programação Python e as principais bibliotecas Pandas, NumPy, Scikit-Learn, Matplotlib, Transformers, TensorFlow, PyTorch em ambientes de apoio à execução de programas paralelos em arquiteturas de GPU. Atuação em Data Science com a realização de EDA (Exploratory Data Analysis) para entendimento de conjunto de dados analisados, extração de insights de bases de dados, através de metodologias de mineração de dados, análise de series temporais com o objetivo de prever comportamentos futuros, aplicação de modelos de deep learning em NLP (BERT, BERTimbau) para identificação de NER (Named Entity Recognition), aplicação de modelos de deep learning em NLP (BERTopic) - técnica de modelagem de tópicos que utiliza transformadores e c-TF-IDF para criar agrupamentos densos, permitindo tópicos facilmente interpretáveis, mantendo palavras importantes nas descrições dos tópicos.

  • Raphael Souza de Oliveira, Centro Universitário SENAI CIMATEC

    Possui graduação em Ciência da Computação pela Faculdade Ruy Barbosa (2004), especialização em Data Science & Analytics pelo Centro Universitário SENAI CIMATEC (2020) e mestrado em Modelagem Computacional e Tecnologia Industrial pelo Centro Universitário SENAI CIMATEC (2022) com pesquisa na área de Inteligência Artificial. Atualmente é analista judiciário - tecnologia da informação - Tribunal Regional do Trabalho da 5ª Região. Possui experiência na área de Ciência da Computação, com ênfase em Arquitetura de Sistemas de Computação.

  • Erick Giovani Sperandio Nascimento, University of Surrey-UK

    É Associate Professor/Reader de Inteligência Artificial (IA) no Surrey Institute for People-Centred AI, membro do Global Centre for Clean Air Research (GCARE) and Sustainability Fellow no Institute for Sustainability, ambos na University of Surrey, Reino Unido. Ele também é Professor Associado do SENAI CIMATEC, Bahia, Brasil. Atualmente trabalha com IA, Modelagem Computacional (CM) e HPC. É Doutor em Engenharia Ambiental na área de Modelagem Computacional Atmosférica, Mestre em Informática na área de Inteligência Computacional e Graduado em Ciência da Computação pela UFES. Atualmente coordena, lidera e participa de projetos de PD nas áreas de IA, modelagem computacional e supercomputação aplicadas a diferentes áreas como Energias Renováveis, Poluição do Ar, Ciências Atmosféricas, Petróleo e Gás, Saúde, Manufatura Avançada, orientando alunos de graduação e pós-graduação. É o pesquisador líder do Programme Lead em Artficial Intelligence (AI) and Sustainability do Institute for Sustainability. Atua como um dos Pesquisadores Principais do Centro Nacional de Pesquisa Aplicada em Inteligência Artificial (CPA-IA) do SENAI CIMATEC, com foco na Indústria, sendo um dos seis CPA-IA no Brasil aprovados pelo Ministério da Ciência, Tecnologia e Inovação (MCTI), Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e Comitê Gestor da Internet no Brasil (CGI.br). Ele é Instrutor Certificado e University Ambassador do NVIDIA Deep Learning Institute (DLI) nas áreas de Deep Learning, Visão Computacional, Processamento de Linguagem Natural, Sistemas de Recomendação, aplicações de IA para detecção de anomalias e manutenção preditiva. É pesquisador principal do NVIDIA/CIMATEC AI Joint Lab, o primeiro em todo o continente americano dentro do programa mundial NVIDIA AI Technology Center (NVAITC). Antes de seu novo cargo em Surrey, atuou como Pesquisador Líder no Centro de Referência em IA do SENAI CIMATEC. Também foi membro e vice-coordenador da Câmara Básica de Assessoramento e Avaliação Científico - Tecnológica, na área de Inovação, da Fundação de Amparo à Pesquisa do Estado da Bahia - FAPESB. Participou como um dos representantes do Brasil no BRICS Innovation Collaboration Working Group em HPC, ICT e IA. Foi coordenador do Grupo de Trabalho do Eixo 5 - Força de Trabalho e Capacitação - da Estratégia Brasileira de Inteligência Artificial (EBIA), e membro do Comitê de Capacitação da Rede de Inovação em IA do MCTI/EMBRAPII, e liderou o grupo de trabalho de especialistas que representam o Brasil no Global Partnership on Artificial Intelligence (GPAI), no tema "IA e Resposta à Pandemia".

Referências

BAKTASH, J.A.; DAWODI, M. Gpt-4: A Review on Advancements and Opportunities in Natural Language Processing. arXiv preprint arXiv:2305.03195, 2023. Disponível em: https://doi.org/10.48550/arXiv.2305.03195. Acesso em: 08 jul. 2024.

IMAN, M.; ARABNIA, H.R.; RASHEED, K. A Review of Deep Transfer Learning and Recent Advancements. Technologies, 2023, 11, 40. Disponível em: https://doi.org/10.3390/technologies11020040 .Acesso em: 08 jul. 2024.

MIKOLOV, T. et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781, 2013. Disponível em: https://doi.org/10.48550/arXiv.1301.3781. Acesso em: 08 jul. 2024.

RADFORD, A. et al. Language models are unsupervised multitask learners. OpenAI blog, v. 1, n. 8, p. 9, 2019. Disponível em: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf . Acesso em: 08 jul. 2024.

SCHNEIDER, E. T. R. et al. A GPT-2 Language Model for Biomedical Texts in Portuguese. In: 21 IEEE 34TH INTERNATIONAL SYMPOSIUM ON COMPUTER-BASED MEDICAL SYSTEMS (CBMS). Aviero (Portugal): IEEE, 2021. pp. 474-479. Disponível em: https://doi.org/10.1109/CBMS52027.2021.00056. Acesso em: 08 jul. 2024.

SENNRICH, R., HADDOW, B., BIRCH, A. Neural Machine Translation of Rare Words with Subword Units. arXiv preprint arXiv:1508.07909, 2015. Disponível em: https://doi.org/10.48550/arXiv.1508.07909. Acesso em: 08 jul. 2024.

SOUZA, F.; NOGUEIRA, R.; LOTUFO, BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: CERRI, R.; PRATI, R.C. (eds). Intelligent Systems. BRACIS 2020. Lecture Notes in Computer Science, vol 12319. Springer, Cham. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-61377-8_28. Acesso em: 08 jul. 2024.

SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. Portuguese Named Entity Recognition using BERT-CRF. arXiv preprint arXiv:1909.10649. 2010. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-61377-8_28. Acesso em: 08 jul. 2024.

VASWANI, A. et al. In: 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS. Long Beach (California): NIPS, 2017. p. 5998-6008. Disponível em: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf. Acesso em: 08 jul. 2024.

Downloads

Publicado

2024-07-27