Microsoft Research: modelos de IA ainda não são bons em corrigir bugs
Experimento conduzido por pesquisadores da Microsoft Research mostra que Claude 3.7 Sonnet teve o resultado "menos pior", com 48,4% de sucesso.
Experimento conduzido por pesquisadores da Microsoft Research mostra que Claude 3.7 Sonnet teve o resultado "menos pior", com 48,4% de sucesso.
O uso de inteligência artificial para geração de código no desenvolvimento de software já é realidade para numerosas organizações. Mas é preciso cautela com essa prática: um estudo da Microsoft Research aponta que os atuais modelos de IA não são bons em identificar códigos e erros de programação, isto é, bugs.
Em linhas gerais, as organizações que recorrem à IA generativa no desenvolvimento de software o fazem para executar projetos mais rapidamente e, claro, diminuir a necessidade de contratar pessoas para conduzir essas atividades.
Mas a Microsoft Research enfatiza que “a maioria dos desenvolvedores passa a maior parte do tempo depurando, e não escrevendo código”. É por isso que o uso de IA na programação precisa tratar a identificação e correção de erros como uma atribuição fundamental.
Para avaliar esse aspecto, os pesquisadores da Microsoft Research fizeram testes de depuração de software usando a ferramenta de benchmark SWE-bench Lite.
Os resultados mostraram resultados um tanto decepcionantes. O Claude 3.7 Sonnet, da Anthropic, apresentou a maior taxa média de sucesso: 48,4%. Já os modelos o1 e o3-mini, da OpenAI, registraram taxas de acerto de apenas 30,2% e 22,1%, respectivamente.
Os motivos são variados, mas os pesquisadores destacam as dificuldades dos modelos de IA testados em lidar com as ferramentas de depuração disponíveis. Há várias ferramentas para esse fim e elas podem ser usadas para problemas distintos, mas os modelos de IA não demostraram habilidades para fazer escolhas condizentes com cada tipo de problema.
Mas a maior limitação encontrada pelos pesquisadores está na ausência de um volume de dados grande o suficiente para os modelos serem treinados para depuração. Para eles, há uma escassez de dados relacionados a “processos sequenciais de tomada de decisão” que correspondem às ações que desenvolvedores humanos executam para depurar código.
Os pesquisadores dão a entender que é só questão de tempo para os modelos de IA ficarem melhores na resolução de bugs em softwares, mas enfatizam que “isso exigirá dados especializados para realizar o treinamento do modelo”.
Apesar das limitações atuais, o uso da IA no desenvolvimento de software deve continuar em alta. Um exemplo dessa tendência vem do CEO da Shopify, que declarou que só contrata mais funcionários quando a IA não dá conta de novas tarefas.
Com informações do TechCrunch e da Microsoft Research
{{ excerpt | truncatewords: 35 }}
{% endif %}