Com a videoconferência se tornando cada vez mais predominante, a Nvidia acredita que pode melhorar a qualidade do vídeo e do som das chamadas em conferência diárias. A empresa anunciou o Nvidia Maxine, uma plataforma de inteligência artificial baseada em nuvem que os desenvolvedores podem usar para melhorar seu software de videoconferência. Os recursos incluem dimensionamento de resolução, tradução em tempo real, redução da largura de banda, legenda oculta, enquadramento automático e remoção de ruído de fundo.

AI-Powered Video Conferencing with NVIDIA Maxine

Para reduzir a largura de banda, a Nvidia diz que usa a IA para analisar “pontos faciais importantes” e depois reanimar o rosto no vídeo. Isso evita ter que transmitir todos os pixels do seu rosto. A empresa afirma que isso reduz o consumo de largura de banda para um décimo usando compactação H.264. Isso pode ser muito útil para pessoas que têm limites para a quantidade de dados que podem usar.

As ferramentas Maxine da Nvidia também incluem a capacidade de permitir a correção do olhar e o alinhamento do rosto. Isso permite que as pessoas pareçam estar frente a frente em uma chamada e simular contato visual, mesmo se a câmera da pessoa não estiver alinhada com a tela. Os desenvolvedores podem adicionar avatares animados que se movem com base na voz e no tom emocional da pessoa. Por fim, assistentes virtuais podem ser integrados à chamada de conferência para realizar tarefas como fazer anotações, definir itens de ação e até mesmo responder perguntas de forma audível em uma voz humana.

“A videoconferência agora faz parte da vida cotidiana, ajudando milhões de pessoas a trabalhar, aprender e se divertir, e até mesmo a ver o médico”, disse Ian Buck, vice-presidente e gerente geral de computação acelerada da Nvidia. “Maxine integra nossos recursos de vídeo, áudio e IA de conversação mais avançados para trazer eficiência inovadora e novos recursos para as plataformas que estão nos mantendo todos conectados.”

Proprietários de placas gráficas RTX receberam recentemente o Nvidia Broadcast, que é um conjunto de ferramentas que usa recursos RTX específicos para desfocar os fundos da câmera e eliminar o ruído do áudio de entrada e saída.

Alguns dos recursos, como detecção de olhar, legenda oculta, tradução em tempo real e até mesmo rostos animados, já foram implementados por algumas empresas. No entanto, o argumento da Nvidia é uma maneira de qualquer desenvolvedor usar suas ferramentas baseadas em nuvem sem ter que comprar GPUs caras para tirar proveito das ferramentas avançadas de IA. Por enquanto, apenas a Avaya se inscreveu para usar o Nvidia Maxine.

Deixe uma resposta

Exit mobile version