O gigante da busca, Google, finalmente lançou o Gemini, seu modelo de inteligência artificial mais avançado até o momento. De acordo com a empresa, o Gemini supera o GPT-4 em quase todos os testes de referência realizados, mas a prudência pode ser aconselhada até que testes independentes sejam divulgados.

O lançamento do Gemini pela Google parece ter sido cronometrado perfeitamente, já que a OpenAI, desenvolvedora do GPT-4, ainda se recupera de lutas internas que resultaram na demissão e recontratação do CEO Sam Altman em questão de dias. Embora isso provavelmente tenha sido inadvertido, é uma vantagem considerável, uma vez que a OpenAI precisará de algum tempo para processar e responder às notícias.

Google's newest and most capable AI | Gemini

Enquanto isso, o trem de hype de relações públicas da Google está a todo vapor, com a empresa lançando vários vídeos no YouTube, Twitter e um extenso post em seu blog. Isso não é para diminuir as capacidades da IA, pois as demonstrações compartilhadas pelos desenvolvedores são impressionantes. No entanto, é importante ter em mente que a Google é uma empresa com fins lucrativos e apresentará seus produtos da melhor maneira possível.

Descontados esses pontos, o post de Sundar Pichai no X (acima) é provavelmente o melhor vídeo que demonstra as habilidades do Gemini. Nele, um chatbot alimentado pelo Gemini mostra que entende vários tipos de entrada, principalmente áudio e visual neste exemplo. No entanto, o Gemini é “multimodal”, o que significa que pode entender entradas de texto, imagem e vídeo.

Por exemplo, ele pode identificar com precisão objetos em fotos ou vídeos, transcrever palavras faladas para texto e gerar uma resposta coerente a uma pergunta complexa. Ele pode distinguir entre modos de comunicação e raciocinar sobre o significado quando várias entradas são usadas simultaneamente. Da mesma forma, pode responder usando vários tipos de saída.

O modelo de IA está disponível em três tamanhos. O Gemini Ultra é o modelo mais complexo voltado principalmente para data centers. O Gemini Pro é ideal para dimensionamento em trabalhos específicos. Finalmente, o Gemini Nano foi projetado para “tarefas no dispositivo”. A Google anunciou planos de integrar o Gemini Nano no Pixel 8 Pro.

Google's newest and most capable AI | Gemini

Os benchmarks da Google podem ser um pouco desafiadores de entender, a menos que você acompanhe de perto o treinamento e desenvolvimento de IA. Demis Hassabis, CEO da DeepMind, explicou os mais importantes no blog da Google.

O Gemini obteve uma pontuação impressionante de 90% no benchmark MMLU, que mede a compreensão massiva de linguagem multitarefa em 57 disciplinas como matemática, física, direito e ética. A Google afirma que isso supera a pontuação de 86,4% do GPT-4. O benchmark usa apenas entrada de texto, mas a alta pontuação indica que o Gemini tem uma compreensão superior da linguagem em várias disciplinas, tornando-o potencialmente mais versátil e prático em diversas aplicações.

Hassabis também afirma que o Gemini supera o GPT-4 por 59,4 a 56,8% no novo benchmark MMMU (Compreensão e Raciocínio Multimodal Massivo Multidisciplinar). Este teste mede as habilidades da IA no raciocínio deliberado de “tarefas multidisciplinares com uma compreensão do nível universitário” do assunto.

Os desenvolvedores listaram outros 16 benchmarks. “HellaSwag” (raciocínio de senso comum para tarefas cotidianas) foi o único em que o GPT-4 da OpenAI obteve uma pontuação mais alta (95,3% para 87,8%). Muitas das outras pontuações que mostram o Gemini liderando são tão próximas que podem ser consideradas negligenciáveis.

O Gemini começou a ser lançado em várias plataformas. O Bard da Google já recebeu integração do Gemini Pro. É a atualização mais significativa do assistente de chatbot e está disponível em mais de 170 países, mas apenas em inglês. A Google diz que mais idiomas estão a caminho.

Como mencionado anteriormente, o Gemini Nano será adicionado ao Pixel 8 Pro. A empresa também planeja integrar o Gemini em outros produtos, incluindo Search, Ads, Chrome e Duet AI. Uma API Gemini Pro será lançada para usuários corporativos em 13 de dezembro.

O Gemini Ultra ainda não está disponível, pois a Google está realizando verificações de confiança e segurança em seu modelo mais complexo. A Ultra deve começar a ser disponibilizada para desenvolvedores e clientes corporativos para “experimentação inicial” no início do próximo ano.

Exit mobile version