본문 바로가기
AI 트렌드/특이점

[OPEN AI] 초정렬에 대한 새로운 논문 간단 요약

by Patrick_WI 2023. 12. 15.
728x90

'초정렬(Superalignment)'이란?

기술적 특이점이 인간의 모든 지능을 합친 것보다 뛰어난 초인공지능의 등장을 의미하는 것은 아마 다들 알고 있는 내용이겠죠. 과학자들은 한 가지 궁금한 점이 생겼습니다. 그것은 "과연 인간이 인간보다 더 뛰어난 '초인공지능'을 감독하는 것이 가능할까?"라는 의문이었죠. 이런 '초인공지능'이 인간의 가치와 의도에 부합하고 이를 준수하도록 연구하는 것이 Superalignment의 연구 목표입니다. 그리고 OPEN AI가 2023년 12월 14일, 그것에 관한 새로운 연구를 발표했습니다.

 

Weak-to-strong generalization

We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak supervisors?

openai.com

 

초정렬 문제의 일반화

연구 아이디어의 핵심은 인간과 '초인공지능'의 관계를 현재 존재하는 기술에 대입하는 것이었습니다. 더 작고 능력이 적은 AI모델, 즉 '약한 감독자'가 더 크고 능력이 뛰어난 AI모델을 효과적으로 감독할 수 있는지 탐구해본 것이었죠. 연구진들은 GPT-2가 GPT-4를 제어할 수 있는 지 확인하는 실험을 진행했습니다. 만약, GPT-2가 GPT-4를 효과적으로 감독할 수 있다면, 인간도 '초인공지능'을 제어할 수 있지 않을까라는게 이 연구의 가설인 셈이죠.

 

실험 결과

결론적으로 연구진은 GPT-2가 GPT-4를 감독함으로서 GPT-3 혹은 GPT-3.5 수준의 퍼포먼스를 보였다고 말합니다. 즉 '약한 감독자'가 어느정도 상위 모델의 성능을 어느정도(그들의 표현을 빌리자면 '대부분') 이끌어냈다는 점에서 의의가 있었습니다. 물론 이런 결과가 인간이 '초인공지능'을 감독할 수 있다는 근거가 되지는 못하고, 연구진도 이를 인식하고 있습니다. 하지만, 연구진들은 이런 연구결과를 통해 앞으로 초정렬 연구에 필요한 새로운 방법론과 기술의 개발의 기반을 마련했다고 밝혔고, 추가 실험을 진행할 계획이라고 이야기했습니다.

728x90