Os cientistas Andrew Barto e Richard Sutton foram anunciados como vencedores do Prêmio Turing de 2025, frequentemente referido como o “Nobel da Computação”. A premiação reconhece suas contribuições fundamentais no desenvolvimento do aprendizado por reforço, uma técnica que tem sido crucial para avanços significativos em inteligência artificial (IA), incluindo sistemas como AlphaGo e ChatGPT.
Desenvolvimento do Aprendizado por Reforço
Na década de 1970, Andrew Barto, da Universidade de Massachusetts Amherst, iniciou estudos que levaram ao conceito de aprendizado por reforço. Em 1978, Richard Sutton juntou-se a Barto, e juntos aprimoraram a técnica inspirada no comportamento de neurônios. O método permite que máquinas aprendam por meio de tentativa e erro, associando ações bem-sucedidas a “recompensas” digitais.
Impacto e Aplicações
Inicialmente restrito ao meio acadêmico, o aprendizado por reforço ganhou destaque em 2016, quando o AlphaGo, da DeepMind (empresa do Google), derrotou o campeão mundial de Go, Lee Sedol. A IA utilizou aprendizado por reforço para jogar milhões de partidas contra si mesma, refinando suas estratégias.
Além disso, o ChatGPT, da OpenAI, aprimorou suas respostas por meio do reforço a partir do feedback humano (Reinforcement Learning from Human Feedback, ou RLHF). A empresa recrutou pessoas para interagir com o modelo, corrigindo erros e ajustando respostas, permitindo que a IA aprendesse com avaliações humanas.
Desafios e Perspectivas Futuras
Apesar dos avanços, o aprendizado por reforço ainda enfrenta desafios, especialmente em sua aplicação fora de contextos estruturados, como jogos. Em cenários mais complexos, como a robótica, especialistas buscam formas de ensinar máquinas a interagir com o mundo físico de maneira mais eficiente. Empresas como OpenAI e DeepSeek exploram novas abordagens, incluindo aprendizado autônomo, no qual chatbots aprendem resolvendo problemas matemáticos sozinhos.
Barto e Sutton acreditam que o próximo passo será levar o aprendizado por reforço para agentes físicos. “Aprender a controlar um corpo por reforço é algo muito natural”, afirmou Barto. A expectativa é que, no futuro, robôs aprendam a se movimentar e tomar decisões com base na experiência, assim como humanos e animais fazem.