Em uma aparição recente sobre possível, um podcast co-apresentado pelo co-fundador do LinkedIn, Reid Hoffman, o CEO do Google Deepmind, Demis Hassabis, disse que a gigante da pesquisa planeja eventualmente combinar seus modelos de IA de Gemini com seus modelos de geração de vídeos da VEO para melhorar a compreensão do primeiro do mundo físico.
“Sempre construímos Gemini, nosso modelo de fundação, para ser multimodal desde o início”, disse Hassabis, “e a razão pela qual fizemos isso (é porque) temos uma visão para essa idéia de um assistente digital universal, um assistente que (…) realmente o ajuda no mundo real”.
A indústria da IA está se movendo gradualmente para os modelos “Omni”, se você preferir – modelos que podem entender e sintetizar muitas formas de mídia. Os modelos mais novos de Gemini do Google podem gerar áudio, bem como imagens e texto, enquanto o modelo padrão do OpenAI no ChatGPT agora pode criar imagens-incluindo, é claro, a arte do estilo Ghibli. A Amazon também anunciou planos de lançar um modelo “qualquer qualquer coisa” ainda este ano.
Esses modelos OMNI exigem muitos dados de treinamento – imagens, vídeos, áudio, texto e assim por diante. Hassabis implicava que os dados de vídeo para o VEO estão chegando principalmente no YouTube, uma plataforma que o Google possui.
“Basicamente, ao assistir a vídeos do YouTube – muitos vídeos do YouTube – (Veo 2) podem descobrir, você sabe, a física do mundo”, disse Hassabis.
O Google disse anteriormente ao TechCrunch que seus modelos “podem ser” treinados em “algum” conteúdo do YouTube de acordo com seu contrato com os criadores do YouTube. Alegadamente, a empresa ampliou seus Termos de Serviço no ano passado, em parte, para tocar em mais dados para treinar seus modelos de IA.