Meta revela novo modelo de linguagem projetado para pesquisa de IA

gigantes da tecnologia como Microsoft e Google, ao lado da OpenAI, estão nas manchetes com suas pesquisas e avanços inovadores em IA. Para nunca serem superados, Mark Zuckerberg e Meta jogaram seu chapéu no ringue de IA com o lançamento de seu novo modelo de linguagem natural, LLaMA. O modelo supostamente supera o GPT-3 na maioria dos benchmarks, sendo apenas um décimo do tamanho total do GPT-3.

O modelo de linguagem IA da Meta

Anunciado em uma postagem de blog na sexta-feira, o Large Language Model Meta AI (LLaMA) da Meta foi projetado com equipes de pesquisa de todos os tamanhos em mente. Com apenas 10% do tamanho do GPT-3 (transformador pré-treinado generativo de terceira geração), o modelo LLaMA fornece um recurso pequeno, mas de alto desempenho, que pode ser aproveitado até mesmo pelas menores equipes de pesquisa, segundo a Meta.

Esse tamanho de modelo garante que equipes pequenas com recursos limitados ainda possam usar o modelo e contribuir para os avanços gerais de IA e aprendizado de máquina.

Today we release LLaMA, 4 foundation models ranging from 7B to 65B parameters.
LLaMA-13B outperforms OPT and GPT-3 175B on most benchmarks. LLaMA-65B is competitive with Chinchilla 70B and PaLM 540B.
The weights for all models are open and available at https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq
— Guillaume Lample (@GuillaumeLample) February 24, 2023

A abordagem da Meta com o LLaMA é marcadamente diferente quando comparada ao ChatGPT da OpenAI, Bard do Google ou Prometheus da Microsoft. A empresa está lançando o novo modelo sob uma licença não comercial, reiterando seu compromisso declarado com a justiça e a transparência da IA.

O acesso para pesquisadores em organizações governamentais, acadêmicas e de pesquisa do setor, interessados em alavancar o modelo exigirá a solicitação de uma licença e o acesso concedido caso a caso.

Os pesquisadores que obtiverem uma licença com sucesso terão acesso ao modelo de fundação pequeno e altamente acessível do LLaMA. A Meta está disponibilizando o LLaMA em vários parâmetros de tamanho, incluindo 7B, 13B, 33B e 65B.

A empresa também lançou o cartão do modelo LLaMA no GitHub, que fornece detalhes adicionais sobre o próprio modelo e as fontes de dados de treinamento público da Meta.

Segundo o cartão, o modelo foi treinado usando CCNet (67%), C4 (15%), GitHub (4,5%), Wikipedia (4,5%), Books (4,5%), ArXiv (2,5%) e Stack Exchange ( 2%).

A Meta foi mais do que aberta sobre o estado do LLaMA e sua intenção de evoluir ainda mais o modelo. Embora seja um modelo básico capaz de ser adaptado a vários casos de uso diferentes, a empresa reconheceu que incógnitas relacionadas a vieses intencionais e comentários tóxicos ainda são uma ameaça que deve ser gerenciada.

A esperança da empresa é que o compartilhamento desse modelo pequeno, mas flexível, leve a novas abordagens que possam limitar ou, em alguns casos, eliminar possíveis vias de exploração do modelo.

O artigo completo da pesquisa LLaMA está disponível para download e revisão no blog Meta Research. Os interessados em solicitar acesso podem fazê-lo no formulário de solicitação online da Meta .

Meta revela novo modelo de linguagem projetado para pesquisa de IA

O modelo de linguagem IA da Meta

Qual o melhor lugar para comprar notebook?

RTX 40 podem vir com chips remanejados, diz vazamento

Anatel prorroga prazo do 0800

Meta revela novo modelo de linguagem projetado para pesquisa de IA

O modelo de linguagem IA da Meta

Artigos Relacionados

Qual o melhor lugar para comprar notebook?

RTX 40 podem vir com chips remanejados, diz vazamento

Anatel prorroga prazo do 0800

Cookies