Inteligência Artificial: visão e linguagem podem ajudar em ampliação

Por: Lucas Kina

Jornalista e repórter do E-Commerce Brasil

Dependendo da teoria de inteligência que você adota, alcançar a Inteligência Artificial (IA) de “nível humano” exige um sistema que possa alavancar várias modalidades, incluindo som, visão e texto. Podemos concordar, então, que a Inteligência Artificial de hoje fica aquém do que o mercado já deseja.

Novas pesquisas mostram sinais de progresso encorajador de robôs que podem descobrir passos para satisfazer comandos básicos, como pegar uma garrafa d’água até construir sistemas de produção de texto que aprendem com explicações.

Na quinta-feira (7), pesquisadores do Google detalharam um sistema de compreensão visual igualmente impressionante chamado Visually-Driven Prosody for Text-to-Speech – VDTTS – em um post publicado no blog do Google que debate a Inteligência Artificial. O VDTTS pode gerar fala com sincronia labial com som realista, com nada mais do que quadros de texto e vídeo da pessoa que está falando.

O discurso gerado pelo VDTTS, embora não seja um substituto perfeito para o diálogo gravado, ainda é muito bom, com expressividade e tempo convincentemente humanos. O Google o vê um dia sendo usado em um estúdio para substituir o áudio original que pode ter sido gravado em condições barulhentas.

Obviamente, a compreensão visual é apenas um passo no caminho para uma Inteligência Artificial mais capaz. Outro componente é a compreensão da linguagem, que fica para trás em muitos aspectos – mesmo deixando de lado os problemas bem documentados de toxicidade e viés da IA . Em um exemplo gritante, um sistema de ponta do Google, Pathways Language Model (PaLM), memorizou 40% dos dados que foram usados para “treiná-lo”, de acordo com um artigo, resultando no PaLM plagiando texto até avisos de direitos autorais em partes de codigo.

Inteligência Artificial: mudanças

Felizmente, o DeepMind, laboratório de IA apoiado pela Alphabet, está entre os que exploram técnicas para resolver isso. Em um novo estudo, os pesquisadores da DeepMind investigam se os sistemas de linguagem de IA – que aprendem a gerar texto a partir de muitos exemplos de texto existente (pense em livros e mídias sociais) – poderiam se beneficiar ao receber explicaçõesdesses textos.

Depois de anotar dezenas de tarefas de linguagem (por exemplo, “Responda a essas perguntas identificando se a segunda frase é uma paráfrase apropriada da primeira, frase metafórica”) com explicações (por exemplo, “os olhos de David não eram literalmente punhais, é uma metáfora usada para implicam que David estava olhando ferozmente para Paul.”) e avaliando o desempenho de diferentes sistemas neles, a equipe do DeepMind descobriu que os exemplos realmente melhoram o desempenho dos sistemas.

A abordagem da DeepMind, se for aprovada na comunidade acadêmica, poderá um dia ser aplicada em robótica, formando os blocos de construção de um robô que pode entender solicitações vagas (por exemplo, “jogar fora o lixo”) sem instruções passo a passo. O novo projeto do Google “ Faça o que eu puder, não o que eu digo ” dá um vislumbre desse futuro – embora com limitações significativas.

Uma colaboração entre Robotics no Google e a equipe Everyday Robotics no laboratório X da Alphabet, Do As I Can, Not As I Say busca condicionar um sistema de linguagem de IA para propor ações “viáveis” e “contextualmente apropriadas” para um robô, dada uma escolha arbitrária tarefa. O robô atua como “mãos e olhos” do sistema de linguagem enquanto o sistema fornece conhecimento semântico de alto nível sobre a tarefa – a teoria é que o sistema de linguagem codifica uma riqueza de conhecimento útil para o robô.

Um sistema chamado SayCan seleciona qual habilidade o robô deve realizar em resposta a um comando, considerando (1) a probabilidade de uma determinada habilidade ser útil e (2) a possibilidade de executar com sucesso tal habilidade. Por exemplo, em resposta a alguém dizendo “Eu derramei minha Coca, você pode me trazer algo para limpar?”, SayCan pode direcionar o robô para encontrar uma esponja, pegar a esponja e trazê-la para a pessoa que pediu. isto.

O SayCan é limitado pelo hardware robótico – em mais de uma ocasião, a equipe de pesquisa observou o robô que eles escolheram para realizar experimentos derrubando objetos acidentalmente. Ainda assim, junto com o trabalho de DALL-E 2 e DeepMind na compreensão contextual, é uma ilustração de como os sistemas de IA, quando combinados, podem nos aproximar muito mais de um futuro do tipo “Jetsons”.

Fonte: Tech Crunch