OpenAI quer usar IA para ajudar humanos que treinam IA

28 de junho de 2024

ChatGPT, CriticGPT, Inteligência Artificial, OpenAIComentários desativados

OpenAI quer usar IA para ajudar humanos que treinam IA

CriticGPT supera o próprio ChatGPT na hora de revisar códigos (Imagem: Vitor Pádua / Tecnoblog)

A OpenAI revelou um novo modelo de inteligência artificial chamado CriticGPT. Ele é baseado no GPT-4, mas com outra especialidade: encontrar erros em códigos gerados pelo ChatGPT. A ideia é que ele ajude humanos na tarefa de treinar modelos de IA.

Pode parecer estranho, mas a empresa explica: seus modelos são treinados usando uma técnica chamada aprendizado por reforço com feedback humano (ou RLHF, na sigla em inglês). Nesta técnica, humanos avaliam as respostas dadas por modelos de IA. A ideia é aperfeiçoar o modelo, para que os resultados sejam mais úteis em situações reais e mais próximos ao desejado por humanos.

Novo modelo ajuda treinadores humanos a encontrar e explicar erros (Imagem: Kevin Ku / Unsplash)

Quando o ChatGPT gera um código, estes humanos, chamados treinadores de IA, revisam a resposta e apontam os erros, para que o modelo “aprenda” o que fazer. O problema é que humanos também podem errar e não perceber o que está incorreto em uma resposta.

O CriticGPT pode ajudar nisso. A ferramenta encontra erros nos códigos gerados pelo ChatGPT e escreve uma crítica (daí seu nome) explicando o problema.

CriticGPT explica onde ChatGPT errou (Imagem: Divulgação / OpenAI)

Segundo a OpenAI, treinadores de IA preferiram as críticas feitas por outros treinadores com ajuda do CriticGPT em 60% dos casos, em comparação com críticas feitas apenas por humanos.

A empresa diz que a “parceria” resulta em avaliações mais compreensivas dos que as feitas apenas por humanos e em menos alucinações que as feitas só pela IA.

Feedback humano também ajudou CriticGPT

Um ponto curioso é que o próprio CriticGPT foi desenvolvido usando RLHF. Os treinadores de IA colocaram manualmente erros em códigos criados pelo ChatGPT e escreveram avaliações como explicando os problemas, como se tivessem sido descobertos por eles.

Depois, estes funcionários verificavam várias avaliações feitas pelo CriticGPT e escolhiam a melhor, como forma de reforçar para o modelo o que ele deveria fazer.

CriticGPT ajuda, mas pode alucinar e ver erro onde não existe (Imagem: Vitor Pádua / Tecnoblog)

O próprio ChatGPT poderia ser usado para avaliar os códigos, mas o modelo especializado se sai melhor na tarefa. Treinadores de IA consideraram a crítica do CriticGPT melhor que a do ChatGPT em 63% dos casos. Para eles, a nova IA produz menos reclamações inúteis e menos alucinações.

Apesar das vantagens, o CriticGPT não é perfeito. A OpenAI admite que ele também pode alucinar, levando os treinadores a cometer erros. Além disso, o modelo foi treinado com respostas curtas e códigos com apenas um erro — para tarefas mais complexas, novos métodos serão necessários.

Com informações: OpenAI, Ars Technica
OpenAI quer usar IA para ajudar humanos que treinam IA

OpenAI quer usar IA para ajudar humanos que treinam IA
Fonte: Tecnoblog

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

OpenAI quer usar IA para ajudar humanos que treinam IA

Tags:

Share this post: