A inteligência artificial é agora rotineiramente utilizada para combinar e interpretar diferentes tipos de informação, incluindo texto, imagens, áudio e vídeo. No entanto, um grande obstáculo permanece. Os desenvolvedores devem decidir qual algoritmo é o mais adequado para uma tarefa específica, e essa escolha muitas vezes é complexa e demorada no campo em rápida expansão da IA multimodal.
Físicos da Emory University propuseram uma abordagem mais clara e sistemática. Em um artigo publicado na The Journal of Machine Learning Research, eles descrevem uma nova estrutura matemática que organiza os métodos de IA e orienta o design de algoritmos para problemas específicos.
“Descobrimos que muitos dos métodos de IA mais bem-sucedidos de hoje se resumem a uma ideia única e simples: compactar múltiplos tipos de dados o suficiente para reter as partes que realmente preveem o que você precisa”, diz Ilya Nemenman, professor de física da Emory e autor sênior do estudo. “Isso nos dá uma espécie de ‘tabela periódica’ de métodos de IA. Diferentes métodos se encaixam em células diferentes, com base nas informações que a função de perda de um método retém ou descarta.”
Uma função de perda é a fórmula matemática que mede até que ponto as previsões de um modelo de IA se desviam da resposta correta. Durante o treinamento, o sistema ajusta-se continuamente para reduzir esse erro. Quanto menor a perda, melhor o desempenho do modelo.
“As pessoas desenvolveram centenas de diferentes funções de perda para sistemas de IA multimodal, e algumas podem ser melhores do que outras, dependendo do contexto”, diz Nemenman. “Nos perguntamos se havia uma maneira mais simples do que começar do zero a cada vez que você se depara com um problema em IA multimodal.”
A Estrutura de Gargalo de Informação Multivariada Variacional
Para abordar essa questão, a equipe criou uma estrutura matemática geral para construir funções de perda específicas para problemas. O método foca em decidir quais informações devem ser preservadas e quais podem ser descartadas. Eles chamam isso de Estrutura de Gargalo de Informação Multivariada Variacional.
“Nossa estrutura é essencialmente como um botão de controle”, diz o coautor Michael Martini, que trabalhou no projeto como pesquisador pós-doutoral na Emory no grupo de Nemenman. “Você pode ‘ajustar o botão’ para determinar quais informações reter para resolver um problema particular.”
“Nossa abordagem é generalizada e fundamentada,” acrescenta Eslam Abdelaleem, primeiro autor do artigo. Abdelaleem iniciou o trabalho como candidato a PhD em física na Emory antes de se graduar em maio e se mudar para o Georgia Tech como pós-doutorando.
“Nosso objetivo é ajudar as pessoas a projetar modelos de IA que sejam adaptados ao problema que estão tentando resolver”, diz ele, “ao mesmo tempo que permite entender como e por que cada parte do modelo está funcionando.”
Usando a estrutura, os desenvolvedores de IA podem propor novos algoritmos, prever quais são mais propensos a ter sucesso, estimar quanto dado de treinamento eles precisarão e antecipar possíveis pontos de falha.
“Igualmente importante,” diz Nemenman, “isso pode nos permitir projetar novos métodos de IA que sejam mais precisos, eficientes e confiáveis.”
Uma Perspectiva Orientada pela Física sobre Aprendizagem de Máquina
Os pesquisadores abordaram o design de IA de maneira diferente da maioria da comunidade de aprendizado de máquina.
“A comunidade de aprendizado de máquina se concentra em alcançar precisão em um sistema sem necessariamente entender por que um sistema está funcionando”, explica Abdelaleem. “Como físicos, no entanto, queremos entender como e por que algo funciona. Portanto, nos concentramos em encontrar princípios fundamentais e unificadores para conectar diferentes métodos de IA.”
Abdelaleem e Martini começaram trabalhando com equações à mão, buscando a ideia central por trás da complexidade das técnicas modernas de IA.
“Passamos muito tempo sentados no meu escritório, escrevendo em um quadro branco”, diz Martini. “Às vezes eu estava escrevendo em uma folha de papel, com Eslam olhando por cima do meu ombro.”
O esforço se estendeu por vários anos. Eles desenvolveram fundamentos matemáticos, revisaram-nos com Nemenman, testaram ideias em computadores e muitas vezes precisaram voltar à estaca zero após seguir abordagens que não funcionaram.
“Foi muita tentativa e erro e voltar ao quadro branco,” diz Martini.
Um Momento Eureka e uma Surpresa do Smartwatch
A grande descoberta ocorreu quando identificaram um princípio único que descrevia o equilíbrio entre a compressão de dados e sua reconstrução. A ideia capturou a relação de troca que está no coração de muitos métodos de IA.
“Testamos nosso modelo em dois conjuntos de dados de teste e mostramos que estava automaticamente descobrindo características importantes e compartilhadas entre eles,” diz Martini. “Isso foi gratificante.”
Após o intenso esforço que levou a esse insight, Abdelaleem verificou seu smartwatch Samsung Galaxy ao deixar o campus. O dispositivo usa IA para monitorar sinais de saúde, como a frequência cardíaca. No entanto, naquele dia, ele leu mal seu entusiasmo.
“Meu relógio disse que eu tinha estado pedalando por três horas,” diz Abdelaleem. “Foi assim que ele interpretou o nível de empolgação que eu estava sentindo. Eu pensei: ‘Uau, isso é realmente algo! Aparentemente, a ciência pode ter esse efeito.’
Testando a Estrutura e Olhando para o Futuro
Para avaliar sua abordagem, a equipe aplicou a estrutura a dezenas de métodos de IA existentes.
“Fizemos demonstrações em computador que mostram que nossa estrutura geral funciona bem com problemas de teste em conjuntos de dados de referência,” diz Nemenman. “Podemos derivar funções de perda mais facilmente, o que pode resolver os problemas que importam com menores quantidades de dados de treinamento.”
Como a estrutura ajuda a eliminar características desnecessárias, ela também pode diminuir as demandas computacionais dos sistemas de IA.
“Ao ajudar a orientar a melhor abordagem de IA, a estrutura ajuda a evitar a codificação de características que não são importantes,” diz Nemenman. “Quanto menos dados forem necessários para um sistema, menos poder computacional será necessário para executá-lo, tornando-o menos prejudicial ao meio ambiente. Isso também pode abrir portas para experimentos de fronteira para problemas que não conseguimos resolver agora, porque não há dados suficientes disponíveis.”
Os pesquisadores esperam que outros apliquem a estrutura para projetar algoritmos adaptados a desafios científicos específicos.
Eles também continuam a expandir o trabalho por conta própria. Uma área de interesse é a biologia, incluindo esforços para identificar padrões relacionados à função cognitiva.
“Quero entender como seu cérebro comprime e processa simultaneamente múltiplas fontes de informação,” diz Abdelaleem. “Podemos desenvolver um método que nos permita ver as semelhanças entre um modelo de aprendizado de máquina e o cérebro humano? Isso pode nos ajudar a compreender melhor ambos os sistemas.”
