Modelos de linguagem em português

O português é a quinta língua mais falada no mundo, mas está longe de ser a quinta mais representada nos grandes modelos de linguagem. Uma série de iniciativas tenta mudar isso — com resultados mistos.

Quando você pede para um modelo de linguagem explicar um conceito em inglês e depois repete o pedido em português, a diferença é perceptível. Não é só uma questão de fluência — é uma questão de profundidade. O modelo em inglês parece ter lido mais, pensado mais, processado mais exemplos do mundo real.

Isso não é impressão. É dado. Estudos de benchmark consistentemente mostram que os maiores modelos de linguagem têm desempenho significativamente pior em português do que em inglês, mesmo quando são modelos multilíngues que "suportam" o idioma.

Por que o desequilíbrio existe

A resposta curta é: dados de treinamento. Os modelos aprendem com texto, e a internet em inglês é muito maior do que a internet em português. Estimativas variam, mas o inglês representa entre 50% e 60% do conteúdo indexável da web. O português, com seus 250 milhões de falantes, representa menos de 5%.

Mas o problema vai além do volume. A qualidade e a diversidade do conteúdo também importam. Muito do que existe em português online é tradução de conteúdo em inglês — o que significa que o modelo aprende português filtrado pela perspectiva anglófona. Expressões idiomáticas, referências culturais, formas de raciocínio específicas do contexto brasileiro ficam sub-representadas.

"Não é só que o modelo sabe menos português. É que o português que ele sabe é um português empobrecido, sem as nuances que fazem a língua funcionar de verdade." — Dra. Patrícia Lemos, pesquisadora de PLN na USP

As iniciativas que estão tentando mudar

Nos últimos dois anos, surgiram várias iniciativas para criar modelos mais competentes em português. Algumas são acadêmicas — grupos de pesquisa em USP, UNICAMP e PUC-Rio trabalhando em datasets e benchmarks específicos para o português brasileiro. Outras são corporativas — empresas como a Maritaca AI, a Neurotech e a própria Embratel investindo em modelos fine-tuned para o mercado local.

O projeto Sabiá

O mais ambicioso desses esforços é o projeto Sabiá, desenvolvido pela Maritaca AI com apoio de pesquisadores de várias universidades brasileiras. O modelo foi treinado com um corpus substancialmente maior de texto em português e passou por avaliação específica em tarefas relevantes para o contexto brasileiro — legislação, saúde pública, educação.

Os resultados são promissores em algumas tarefas e decepcionantes em outras. O modelo performa bem em textos formais e técnicos. Em linguagem coloquial, gírias e referências culturais contemporâneas, ainda fica aquém do esperado.

O que isso significa na prática

Para a maioria dos usuários brasileiros, a diferença de qualidade entre modelos em inglês e português já é perceptível no dia a dia. Mas o impacto mais sério está em aplicações profissionais: sistemas de saúde que usam IA para triagem, ferramentas jurídicas que processam contratos, plataformas educacionais que geram conteúdo personalizado.

Nesses contextos, a diferença de qualidade não é apenas inconveniente — pode ter consequências reais. E o Brasil, com sua escala e complexidade, precisa de modelos que entendam o país de verdade, não apenas que consigam traduzir inglês de forma razoável.

O caminho existe. Mas é longo, e requer investimento que, por enquanto, ainda não chegou na escala necessária.

Modelos de linguagem em português: onde o Brasil ficou para trás e o que está mudando

Por que o desequilíbrio existe

As iniciativas que estão tentando mudar

O projeto Sabiá

O que isso significa na prática

Camila Esteves