Quando as pessoas conversam cara a cara, quase metade de sua atenção é voltada para o movimento dos lábios. Apesar disso, os robôs ainda têm grandes dificuldades em mover suas bocas de forma convincente. Mesmo as máquinas humanoides mais avançadas costumam depender de movimentos de boca rígidos e exagerados que se assemelham a fantoches, assumindo que tenham um rosto.
Os humanos atribuem enorme importância à expressão facial, especialmente aos movimentos sutis dos lábios. Enquanto andar desajeitado ou gestos de mão descoordenados podem ser perdoados, até mesmo pequenos erros nos movimentos faciais tendem a se destacar imediatamente. Essa sensibilidade contribui para o que os cientistas chamam de “Uncanny Valley”, um fenômeno onde os robôs parecem inquietantes em vez de realistas. Um movimento labial deficiente é uma das principais razões pelas quais os robôs podem parecer estranhos ou emocionalmente planos, mas os pesquisadores afirmam que isso pode mudar em breve.
Um Robô Que Aprende a Mover os Lábios
No dia 15 de janeiro, uma equipe da Columbia Engineering anunciou um grande avanço na robótica humanoide. Pela primeira vez, os pesquisadores construíram um robô que pode aprender movimentos labiais faciais para falar e cantar. Seus achados, publicados na Science Robotics, mostram o robô formando palavras em vários idiomas e até realizando uma canção de seu álbum de estreia gerado por IA, “hello world_.”
Em vez de depender de regras pré-definidas, o robô aprendeu por meio da observação. Começou descobrindo como controlar seu próprio rosto usando 26 motores faciais separados. Para isso, assistiu ao seu reflexo em um espelho e, posteriormente, estudou horas de vídeos de fala e canto humanos no YouTube para entender como as pessoas movem os lábios.
“Quanto mais interage com humanos, melhor ele fica,” disse Hod Lipson, Professor James e Sally Scapa de Inovação no Departamento de Engenharia Mecânica e diretor do Creative Machines Lab da Columbia, onde a pesquisa foi realizada.
Veja o link para o vídeo “Robô Sincronizando Lábios” abaixo.
Robô Se Observa Falando
Criar movimentos labiais com aparência natural em robôs é especialmente difícil por duas razões principais. Primeiro, requer hardware avançado, incluindo material facial flexível e muitos motores pequenos que devem operar silenciosamente e em perfeita coordenação. Segundo, o movimento labial está intimamente ligado aos sons da fala, que mudam rapidamente e dependem de sequências complexas de fonemas.
Os rostos humanos são controlados por dezenas de músculos localizados sob a pele suave, permitindo que os movimentos fluam naturalmente com a fala. A maioria dos robôs humanoides, no entanto, possui rostos rígidos com movimento limitado. Seus movimentos labiais costumam ser ditados por regras fixas, o que leva a expressões mecânicas e não naturais que parecem inquietantes.
Para enfrentar esses desafios, a equipe da Columbia projetou um rosto robótico flexível com um número elevado de motores e permitiu que o robô aprendesse o controle facial de forma autônoma. O robô foi colocado em frente a um espelho e começou a experimentar milhares de expressões faciais aleatórias. Assim como uma criança explorando seu reflexo, aprendeu gradualmente quais movimentos de motor produziam formas faciais específicas. Este processo baseou-se em algo que os pesquisadores chamam de modelo de linguagem “visão-para-ação” (VLA).
Aprendendo com a Fala e a Canção Humana
Depois de entender como seu próprio rosto funcionava, o robô foi exibido para vídeos de pessoas falando e cantando. O sistema de IA observou como as formas da boca mudavam com diferentes sons, permitindo-lhe associar a entrada de áudio diretamente com o movimento motor. Com essa combinação de autoaprendizagem e observação humana, o robô pôde converter som em movimento labial sincronizado.
A equipe de pesquisa testou o sistema em vários idiomas, estilos de fala e exemplos musicais. Mesmo sem entender o significado do áudio, o robô conseguiu mover os lábios em sincronia com os sons que ouviu.
Os pesquisadores reconhecem que os resultados não são perfeitos. “Tivemos dificuldades com sons consonantais difíceis, como ‘B’, e com sons que envolvem o movimento de bico, como ‘W’. Mas essas habilidades provavelmente irão melhorar com o tempo e a prática,” disse Lipson.
Além da Sincronização Labial para uma Comunicação Real
Os pesquisadores enfatizam que a sincronização labial é apenas uma parte de um objetivo mais amplo. A meta é proporcionar aos robôs maneiras mais ricas e naturais de se comunicarem com as pessoas.
“Quando a habilidade de sincronização labial é combinada com IA conversacional, como ChatGPT ou Gemini, o efeito adiciona uma nova profundidade à conexão que o robô forma com o humano,” disse Yuhang Hu, que liderou o estudo como parte de seu trabalho de doutorado. “Quanto mais o robô observa humanos conversando, melhor ele ficará em imitar os gestos faciais sutis com os quais podemos nos conectar emocionalmente.”
“Quanto mais longo o contexto da conversa, mais sensíveis ao contexto esses gestos se tornarão,” acrescentou Hu.
A Expressão Facial como o Elo Perdido
A equipe de pesquisa acredita que a expressão emocional através do rosto representa uma lacuna significativa na robótica atual.
“Muito da robótica humanoide hoje em dia está focada nos movimentos de pernas e mãos, para atividades como andar e agarrar,” disse Lipson. “Mas a afeição facial é igualmente importante para qualquer aplicação robótica que envolva interação humana.”
Lipson e Hu esperam que expressões faciais realistas se tornem cada vez mais importantes à medida que robôs humanoides são introduzidos no entretenimento, educação, saúde e cuidado de idosos. Alguns economistas estimam que mais de um bilhão de robôs humanoides podem ser produzidos na próxima década.
“Não há futuro onde todos esses robôs humanoides não tenham um rosto. E quando finalmente tiverem um rosto, precisarão mover os olhos e os lábios corretamente, ou permanecerão para sempre estranhos,” disse Lipson.
“Nós, humanos, estamos simplesmente programados para isso, e não podemos evitar. Estamos perto de cruzar o vale inquietante,” acrescentou Hu.
Riscos e Progresso Responsável
Este trabalho constrói sobre o esforço de longa data de Lipson para ajudar robôs a formarem conexões mais naturais com as pessoas, aprendendo comportamentos faciais como sorrir, manter contato visual e falar. Ele argumenta que essas habilidades devem ser aprendidas por observação, em vez de serem programadas através de instruções rígidas.
“Algo mágico acontece quando um robô aprende a sorrir ou falar só de observar e ouvir humanos,” disse ele. “Sou um robótico cético, mas não consigo evitar sorrir de volta para um robô que sorri espontaneamente para mim.”
Hu enfatizou que o rosto humano continua sendo uma das ferramentas mais poderosas de comunicação, e os cientistas estão apenas começando a entender como funciona.
“Robôs com essa habilidade terão claramente uma capacidade muito melhor de se conectar com os humanos porque uma parte significativa de nossa comunicação envolve a linguagem corporal facial, e esse canal inteiro ainda está inexplorado,” disse Hu.
Os pesquisadores também reconhecem as preocupações éticas que vêm com a criação de máquinas que podem se envolver emocionalmente com os humanos.
“Esta será uma tecnologia poderosa. Precisamos avançar devagar e com cuidado, para que possamos colher os benefícios enquanto minimizamos os riscos,” disse Lipson.
