Finding GPT-4’s mistakes with GPT-4

이번 포스팅에서는 GPT-4를 이용한 ChatGPT의 오류 검출 방법을 소개합니다. OpenAI는 CriticGPT라는 GPT-4 기반 모델을 개발해 ChatGPT의 코드 출력을 비판하고, 오류를 찾아내도록 훈련했습니다. 이 모델은 RLHF(인간 피드백을 통한 강화 학습)를 사용하여 더 정밀한 피드백을 제공하고, AI 트레이너가 더 나은 결과를 도출할 수 있게 합니다. 실험 결과, CriticGPT는 인간 트레이너가 단독으로 작업할 때보다 60% 더 높은 성과를 보였습니다. 앞으로 이 기술을 확장하여 더욱 복잡한 AI 시스템에도 적용할 계획입니다.

GPT-4로 GPT-4s의 실수 찾기
GPT-4에 기반한 모델인 CriticGPT는 ChatGPT 응답에 대한 비평을 작성하여 인간 트레이너가 RLHF 중 실수를 발견할 수 있도록 도와줍니다.

개요

저희는 ChatGPT의 코드 출력에서 오류를 잡아내기 위해 GPT-4를 기반으로 한 CriticGPT라는 모델을 학습시켰습니다. 그 결과, CriticGPT의 도움을 받아 ChatGPT 코드를 검토하는 사람들의 성능이 도움을 받지 않는 사람들보다 60% 더 뛰어난 것으로 나타났습니다. 크리틱GPT와 유사한 모델을 RLHF 라벨링 파이프라인에 통합하여 트레이너에게 명시적인 AI 지원을 제공하는 작업을 시작하고 있습니다. 이는 더 나은 도구 없이는 사람이 평가하기 어려울 수 있는 고급 AI 시스템의 결과물을 평가할 수 있도록 하기 위한 단계입니다.

ChatGPT를 구동하는 GPT-4 시리즈 모델은 “인간 피드백을 통한 강화 학습”(RLHF)을 통해 도움이 되고 상호 작용할 수 있도록 조정되었습니다. RLHF의 핵심은 AI 트레이너라고 불리는 사람들이 서로 다른 ChatGPT 응답을 평가하는 비교를 수집하는 것입니다.

추론과 모델 행동이 발전함에 따라 ChatGPT는 더욱 정확해지고 실수는 더욱 미묘해집니다. 이로 인해 AI 트레이너는 부정확성이 발생했을 때 이를 발견하기 어려워져 RLHF를 구동하는 비교 작업이 훨씬 더 어려워질 수 있습니다. 이는 RLHF의 근본적인 한계로, 모델이 피드백을 제공할 수 있는 사람보다 점차 더 많은 지식을 갖추게 되면서 모델을 조정하는 것이 점점 더 어려워질 수 있습니다.

이러한 문제를 해결하기 위해 저희는 ChatGPT 답변의 부정확성을 강조하는 비평을 작성하도록 CriticGPT를 훈련시켰습니다.

source:openai.com

CriticGPT의 제안이 항상 옳은 것은 아니지만, 트레이너가 AI의 도움을 받지 않았을 때보다 모델이 작성한 답안에서 더 많은 문제를 발견하는 데 도움이 될 수 있다는 사실을 발견했습니다. 또한, 사람들이 CriticGPT를 사용하면 AI가 기술을 보강하여 사람이 혼자 작업할 때보다 더 포괄적인 비평을 하고, 모델이 혼자 작업할 때보다 환각 버그가 더 적습니다. 실험에서 두 번째 무작위 트레이너는 도움을 받지 않은 사람의 비평보다 인간+크리틱GPT 팀의 비평을 60% 이상 더 선호했습니다.

source:openai.com

CriticGPT는 트레이너가 도움 없이 작성하는 것보다 더 포괄적인 비평을 작성하는 동시에 모델만으로 비평하는 것보다 환각을 덜 생성하도록 돕습니다.


방법

CriticGPT도 ChatGPT와 마찬가지로 RLHF로 훈련되었습니다. 하지만 ChatGPT와 달리 실수가 포함된 입력이 많았기 때문에 비평해야 했습니다. AI 트레이너에게 이러한 실수를 ChatGPT가 작성한 코드에 수동으로 삽입한 다음 방금 삽입한 버그를 발견한 것처럼 예제 피드백을 작성하도록 요청했습니다. 그런 다음 같은 사람이 수정된 코드에 대한 여러 비평을 비교하여 비평이 삽입된 버그를 언제 발견했는지 쉽게 알 수 있도록 했습니다. 실험에서는 CriticGPT가 삽입된 버그와 이전 트레이너가 발견한 ‘자연 발생적’ ChatGPT 버그를 모두 잡아낼 수 있는지 여부를 연구했습니다. 그 결과, 자연적으로 발생하는 버그의 경우 63%에서 크리틱GPT 비평이 ChatGPT 비평보다 트레이너가 선호하는 것으로 나타났는데, 이는 부분적으로는 새로운 비평가가 ‘니트픽(도움이 되지 않는 작은 불만)’을 더 적게 생성하고 문제를 덜 자주 환각하기 때문인 것으로 보입니다.

또한 비평 보상 모델에 대한 추가 테스트 시간 검색을 통해 더 길고 포괄적인 비평을 생성할 수 있다는 사실도 발견했습니다. 이 검색 절차를 통해 코드에서 문제를 얼마나 적극적으로 찾는지 균형을 맞추고 환각과 탐지된 버그의 수 사이의 정밀도-회상률 균형을 구성할 수 있습니다. 즉, RLHF에 최대한 도움이 되는 비평을 생성할 수 있습니다. 자세한 내용은 연구 논문을 참조하세요.


제한 사항

저희는 상당히 짧은 ChatGPT 답변으로 CriticGPT를 훈련시켰습니다. 미래의 에이전트를 감독하기 위해서는 트레이너가 길고 복잡한 작업을 이해하는 데 도움이 되는 방법을 개발해야 할 것입니다.

모델들은 여전히 환각을 보고 있으며, 때때로 트레이너는 환각을 본 후 라벨링 실수를 하기도 합니다.

때로는 실제 실수가 정답의 여러 부분에 걸쳐 퍼질 수 있습니다. 지금은 한 곳에서 지적할 수 있는 오류에 초점을 맞추고 있지만, 앞으로는 분산된 오류도 해결해야 합니다.

작업이나 답변이 매우 복잡한 경우에는 모델 도움을 받는 전문가도 이를 올바르게 평가하지 못할 수 있기 때문에 CriticGPT는 많은 도움을 줄 수 없습니다.


다음 단계

점점 더 복잡해지는 AI 시스템을 조정하기 위해서는 더 나은 도구가 필요합니다. 크리틱GPT에 대한 연구에서, RLHF를 GPT-4에 적용하면 인간이 GPT-4에 대해 더 나은 RLHF 데이터를 생성하는 데 도움이 될 수 있다는 사실을 발견했습니다. 저희는 이 작업을 더욱 확장하여 실제로 적용할 계획입니다.


게시됨

카테고리

,

작성자

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다