Os robôs utilizados nos escritórios do Google ficaram mais inteligentes após seus sistemas serem otimizados com recursos do Gemini, inteligência artificial generativa da empresa. É o que revelou um estudo feito por especialistas da gigante da tecnologia, divulgado na quarta-feira (10).
Conforme a equipe de robótica da DeepMind, as máquinas foram treinadas com a ampla janela de contexto do Gemini 1.5 Pro, versão mais poderosa do modelo de linguagem. A ideia era desenvolver uma navegação robótica melhorada, combinando os poderes de processamento da IA com a visão computacional.
E os resultados foram considerados promissores, tornando a interação entre humanos e máquinas mais fácil. Em um dos experimentos, que pode ser conferido no vídeo acima, alguém pede ao robô com Gemini que o ajude a encontrar um local onde seria possível desenhar, iniciando a conversa com a expressão “Hey, robô”.
Na sequência, o robô informa que está processando a solicitação com o auxílio da IA generativa e, pouco depois, guia o usuário até o local onde há um quadro branco na parede. De acordo com o Google, ele pode fazer ainda mais coisas, ajudando a pessoa a se deslocar pelo ambiente de forma mais eficiente.
Pontos que precisam melhorar
Os responsáveis pelo estudo afirmaram ter alcançado taxas de sucesso de 86% a 90% nas tarefas de navegação anteriormente inviáveis, que envolvem raciocínio complexo e instruções multimodais, em mais de 50 interações. O experimento ocorreu em uma área de 835 m², espaço já conhecido pela máquina.
Apesar disso, há alguns pontos que precisam ser melhorados, como o tempo gasto pelo robô com Gemini para processar a solicitação e formular a resposta, que varia de 10 a 30 segundos. Outro detalhe é que a máquina ainda não consegue realizar, autonomamente, o seu próprio passeio de demonstração.
Os pesquisadores também querem descobrir se o Gemini 1.5 Pro pode levar os robôs a planejar e executar tarefas mais complexas, em estudos futuros. Evidências preliminares desta capacidade já foram identificadas.