top of page

Inteligência Artificial Generativa e o Início da Robótica Generalista

Projeto Global reúne 34 laboratórios para empreender no chamado projeto RT-X, com o objetivo de reunir dados, recursos e código para tornar os robôs generalistas uma realidade.


Inteligência Artificial Generativa e o Início da Robótica Generalista
Inteligência Artificial Generativa e o Início da Robótica Generalista

A Revolução da Inteligência Artificial Generativa incorporada em ferramentas como ChatGPT, Midjourney e muitas outras é fundamentalmente baseada em uma fórmula simples: Pegar uma rede neural muito grande, treiná-la em um enorme conjunto de dados coletados da Web e então usá-la para atender a uma ampla gama de solicitações do usuário. Modelos de linguagem grandes (LLMs) podem responder perguntas, escrever código e produzir até mesmo poesia, enquanto sistemas geradores de imagens podem criar pinturas de cavernas convincentes ou mesmo arte contemporânea.


Então, por que essas incríveis capacidades da IA ainda não se traduziram os típicos robôs amplamente úteis que tanto vemos na ficção científica? Onde estão os robôs que podem limpar a mesa, dobrar a roupa e fazer o café da manhã?


Infelizmente, a fórmula altamente bem-sucedida da IA generativa - grandes modelos treinados com muitos dados obtidos da Internet - não se transfere facilmente para a robótica prática, porque a Internet não está cheia de dados de interação robótica da mesma forma que está repleta de texto e imagens. Os robôs precisam de dados para aprender, e esses dados são tipicamente criados lentamente e tediosamente por pesquisadores em ambientes de laboratório para tarefas muito específicas. Apesar do tremendo progresso em algoritmos de aprendizado de robôs, sem dados abundantes, ainda não podemos capacitar os robôs a realizar tarefas práticas (como fazer o café da manhã) fora do laboratório. Os resultados mais impressionantes geralmente funcionam apenas em um único laboratório, em um único robô e muitas vezes envolvem apenas um punhado de comportamentos.


Mas se as habilidades de cada robô são limitadas pelo tempo e esforço necessários para ensiná-lo manualmente a executar uma nova tarefa, e se nos juntássemos para reunir as experiências de muitos robôs, para que um novo robô pudesse aprender com todos eles de uma só vez? Em 2023, 34 grandes laboratórios se reuniram para empreender no chamado projeto RT-X, com o objetivo de reunir dados, recursos e código para tornar os robôs generalistas uma realidade.


*Mas afinal como criar um robô generalista?


Os humanos são muito melhores nesse tipo de aprendizado prático, pois nossos cérebros podem, com um pouco de prática, lidar com o que são essencialmente mudanças em nosso plano corporal, o que acontece quando pegamos uma ferramenta, andamos de bicicleta ou entramos em um carro. Ou seja, nossa "incorporação" muda, mas nossos cérebros se adaptam. O Projeto RT-X está buscando algo semelhante para os robôs: capacitar uma única rede neural profunda para controlar muitos tipos diferentes de robôs, uma capacidade chamada de incorporação cruzada. A questão é se uma rede neural profunda treinada em dados de um número suficientemente grande de robôs diferentes pode aprender a "dirigir" todos eles - até mesmo robôs com aparências, propriedades físicas e capacidades muito diferentes. Se sim, essa abordagem poderia potencialmente desbloquear o poder de grandes conjuntos de dados para aprendizado robótico!


A escala deste projeto é muito grande, o conjunto de dados RT-X atualmente contém quase um milhão de testes robóticos para 22 tipos de robôs, incluindo muitos dos braços robóticos mais comumente usados no mercado. Os robôs neste conjunto de dados executam uma enorme variedade de comportamentos, incluindo pegar e soltar objetos, montagem e demais tarefas especializadas. No total, existem cerca de 500 habilidades diferentes e interações com milhares de objetos diferentes. É o maior conjunto de dados de ações robóticas reais de código aberto existente.


Surpreendentemente, foi descoberto que os dados de multirobô podem ser usados com métodos de aprendizado de máquina relativamente simples, desde que sigam a receita de usar modelos de rede neural grandes com grandes conjuntos de dados. Alavancando os mesmos tipos de modelos usados nos LLMs atuais como o ChatGPT, foi possível treinar algoritmos de controle de robôs que não exigem nenhuma característica especial para incorporação cruzada. Assim como uma pessoa pode dirigir um carro ou andar de bicicleta usando o mesmo cérebro, um modelo treinado no conjunto de dados RT-X pode simplesmente reconhecer que tipo de robô está controlando a partir do que vê nas observações da câmera do próprio robô. Se a câmera do robô vê um braço industrial UR10, por exemplo, o modelo envia comandos apropriados a um UR10. Se o modelo vir um braço amador WidowX de baixo custo, o modelo o moverá de acordo.


Para testar as capacidades deste modelo, cinco dos laboratórios envolvidos na colaboração do Projeto RT-X testaram em uma comparação direta com o melhor sistema de controle que haviam desenvolvido independentemente para seu próprio robô. O teste de cada laboratório envolveu as tarefas que estavam usando em sua própria pesquisa, que incluíam coisas como pegar e mover objetos, abrir portas e separar cabos através de clipes. Notavelmente, o modelo unificado proporcionou um desempenho melhor do que o melhor método desenvolvido pelos laboratórios, tendo sucesso nas tarefas cerca de 50% mais vezes.


Embora esse resultado possa parecer surpreendente, puderam concluir ainda, que o controlador RT-X consegue aproveitar as experiências diversas de outros robôs para melhorar a robustez em diferentes ambientes. Até dentro do mesmo laboratório, sempre que um robô tenta uma tarefa, ele se encontra em uma situação ligeiramente diferente, e assim aproveitar as experiências de outros robôs em situações diferentes ajudou o controlador RT-X a lidar com variabilidade natural e casos extremos.


*O Projeto RT-X: Uma Iniciativa de Incorporação Cruzada


O projeto RT-X mostra o que é possível quando a comunidade de robótica age em conjunto. Devido a esse esforço interinstitucional, entre diversos laboratórios renomados, foi possível reunir um conjunto diversificado de dados robóticos e realizar avaliações multirobô abrangentes que não seriam possíveis em nenhuma instituição de forma individual. Como a comunidade de robótica não pode depender da extração de dados da internet para treinamento, é necessário criar esses dados por conta.


Os resultados iniciais deste projeto indicam como modelos robóticos de grande escala de incorporação cruzada podem transformar o campo da robótica. Assim como os grandes modelos de linguagem dominaram uma ampla gama de tarefas baseadas em linguagem, no futuro podemos usar o mesmo modelo fundamental como base para muitas tarefas robóticas do mundo real. Talvez novas habilidades robóticas possam ser habilitadas ajustando ou até mesmo provocando um modelo fundamental pré-treinado. De maneira semelhante a como você pode solicitar ao ChatGPT para contar uma história sem antes treiná-lo nessa história específica, você poderia pedir a um robô para escrever "Feliz Aniversário" em um bolo sem precisar ensiná-lo a usar um saco de confeitar ou como é a escrita à mão. Claro, ainda será necessária muita pesquisa para que esses modelos assumam esse tipo de capacidade geral.


À medida que mais laboratórios se envolvem nesta iniciativa de incorporação cruzada, espera-se continuar avançando na fronteira do que é possível com uma única rede neural que controla vários robôs. Esses avanços podem incluir a adição de dados simulados diversos de ambientes gerados, o manuseio de robôs com diferentes números de braços ou dedos, o uso de diferentes conjuntos de sensores (como câmeras de profundidade e sensores táteis) e até mesmo a combinação de comportamentos de manipulação e locomoção. O RT-X abriu as portas para esse trabalho, mas os desenvolvimentos técnicos mais emocionantes ainda estão por vir, este é apenas o começo!


Quer saber mais sobre Robótica e suas aplicações? Acesse já o nosso site e saiba mais!





Comments


bottom of page