O aprendizado por reforço, área de pesquisa em rápido crescimento no campo da inteligência artificial, abre novas perspectivas no ambiente industrial.

A inteligência artificial pode enveredar por caminhos inabituais e inesperados. Por exemplo, o aprendizado automático (machine learning) usava, e ainda usa, um método de levantamento de dados na entrada e de dados esperados na saída. O algoritmo aprende com milhares ou milhões de exemplos etiquetados e assim associa as imagens a categorias ou a classes.

“Existe um novo método para contornar este problema: o aprendizado por reforço”, explica Erik Lenten, Chief Technology Officer da Axians, a marca TIC da VINCI Energies.

O aprendizado por reforço é fundamentalmente diferente dos métodos chamados supervisionados, porque o algoritmo tem a capacidade iterativa de testar ou explorar várias soluções, de observar a reação do ambiente e de adaptar seu comportamento para encontrar a melhor estratégia. Por outras palavras, a máquina aprende com seus próprios erros, de forma completamente autônoma.

A técnica é baseada num sistema de “recompensas”: o algoritmo é punido quando comete um erro e recompensado quando toma a decisão certa. Desta forma, ele próprio otimiza sua decisão. O desenvolvedor do modelo de aprendizado por reforço deve simplesmente estabelecer as regras que determinam se a IA será punida ou recompensada.

O videogame de Elon Musk

A Amazon desenvolveu um protótipo baseado no aprendizado por reforço. Chamado AWS DeepRacer, é um carro de corrida miniatura, autônomo, que deve “ficar na pista”. É penalizado quando sai e recompensado quando permanece na pista, devendo ao mesmo tempo “ser o mais rápido possível”. Aberta aos desenvolvedores do mundo inteiro através de um campeonato internacional, esta experiência através de um simulador 3D permite aprimorar diariamente o desempenho do veículo. Você pode treinar o modelo neste simulador virtual e uma vez bem treinado, você pode baixá-lo e correr em uma pista real. Esta experiência esclarece o conceito de aprendizado por reforço e permite aos desenvolvedores utilizarem-no em seu próprio software. Na mesma lógica, a startup britânica Wayve levou um dia para ensinar um carro autônomo a seguir uma linha reta.

Mas o mais eloquente é certamente o exemplo desenvolvido pela IA Five da Open AI, a fundação de Elon Musk, que treinou durante o equivalente a 40.000 anos com o videogame Dota 2 usando o método de aprendizado por reforço. A Five é capaz agora de derrotar sozinha um time inteiro de jogadores profissionais de Dota 2.

“Em um ambiente industrial, o aprendizado por reforço pode realizar simulações para determinar os melhores parâmetros de produção.

Qual é o interesse do aprendizado por reforço para a esfera industrial? “Esta técnica pode interessar no contexto de uma linha de produção, por exemplo, que quer otimizar seus processos, mas deve levar em consideração a interação entre diferentes máquinas. O aprendizado por reforço realiza diferentes ajustes e adapta suas decisões de acordo com os resultados“, observa Erik Lenten.

“Obviamente, reconhece o CTO da Axians, o processo não é viável na vida real”. Mas construindo um gêmeo digital da linha de produção, podemos realizar simulações para determinar os melhores parâmetros de produção.”

23/07/2020