본문 바로가기
카테고리 없음

GPT-4와 ChatGPT 비교

by Sparking Joy 2023. 4. 19.
반응형

최근 몇 개월 동안 획기적인 대규모 언어 모델이 출시된 속도는 놀랍습니다. 이번 포스팅에서는 GPT-4와 ChatGPT를 비교해 보도록 하겠습니다.

 

서론

OpenAI는 2022년 후반에 ChatGPT를 출시하면서 세상을 놀라게 했습니다. 새로운 생성 언어 모델은 미디어, 교육, 법률 및 기술을 포함한 전체 산업을 완전히 변화시킬 것으로 예상됩니다. 요컨대 ChatGPT는 거의 모든 것을 방해하겠다고 위협합니다. 그리고 우리가 ChatGPT 이후의 세상을 진정으로 상상할 시간을 갖기도 전에 OpenAI는 GPT-4를 출시했습니다. 이 포스팅에서는 학습 방법, 성능 및 기능, 제한 사항을 포함하여 ChatGPT와 GPT-4의 주요 유사점과 차이점을 다룰 것입니다.

 

GPT-4와 ChatGPT 비교

1. ChatGPT와 GPT-4: 교육 방법의 유사점 및 차이점 ChatGPT와 GPT-4는 모두 이전 버전의 GPT 모델을 기반으로 모델 아키텍처를 개선하고 보다 정교한 훈련 방법을 사용하며 훈련 매개변수의 수를 늘리는 거인의 어깨에 서 있습니다. 두 모델 모두 트랜스포머 아키텍처를 기반으로 합니다. GPT-2 및 GPT-3은 multi-headed self-attention을 사용하여 가장 주의를 기울일 텍스트 입력을 결정합니다. 모델은 또한 한 번에 한 토큰씩 출력 시퀀스를 생성하는 디코더 전용 아키텍처를 사용하여 시퀀스의 다음 토큰을 반복적으로 예측합니다. ChatGPT 및 GPT-4의 정확한 아키텍처는 공개되지 않았지만 계속해서 디코더 전용 모델이라고 가정할 수 있습니다. OpenAI의 GPT-4 기술 보고서는 GPT-4의 모델 아키텍처 및 교육 프로세스에 대한 정보를 거의 제공하지 않으며 "경쟁 환경 및 대규모 모델의 안전 영향"을 언급합니다. 우리가 아는 것은 ChatGPT와 GPT-4가 유사한 방식으로 훈련될 가능성이 있다는 것입니다. 이는 GPT-2와 GPT-3에 사용되는 훈련 방법에서 벗어난 것입니다. 우리는 GPT-4보다 ChatGPT의 교육 방법에 대해 더 많이 알고 있으므로 여기서부터 시작하겠습니다.

 

ChatGPT

먼저 ChatGPT는 인간 주석자가 특정 프롬프트에 대한 응답으로 챗봇 어시스턴트의 예상 출력 데모를 제공하는 데모 데이터를 포함한 대화 데이터 세트에 대해 교육을 받습니다. 이 데이터는 지도 학습으로 GPT3.5를 미세 조정하는 데 사용되어 프롬프트가 제공될 때 여러 응답을 생성하는 데 사용되는 정책 모델을 생성합니다. 그런 다음 휴먼 애노테이터는 주어진 프롬프트에 대한 응답 중 가장 좋은 결과를 생성한 순위를 매기며 보상 모델을 교육하는 데 사용됩니다. 그런 다음 보상 모델은 강화 학습을 사용하여 정책 모델을 반복적으로 미세 조정하는 데 사용됩니다. 한 문장으로 요약하자면, ChatGPT는 훈련 중에 언어 모델을 개선하기 위해 사람의 피드백을 통합하는 방법인 RLHF( Reinforcement Learning from Human Feedback )를 사용하여 훈련됩니다. 이를 통해 모델의 출력은 GPT-3과 같은 일반 교육 데이터 모음을 기반으로 문장의 다음 단어를 예측하는 것이 아니라 사용자가 요청한 작업에 맞출 수 있습니다.

 

GPT-4

OpenAI는 아직 GPT-4를 훈련시킨 방법에 대한 세부 정보를 공개하지 않았습니다. 기술 보고서에는 "아키텍처(모델 크기 포함), 하드웨어, 교육 컴퓨팅, 데이터 세트 구성, 교육 방법 또는 유사 항목에 대한 세부 정보"가 포함되어 있지 않습니다. 우리가 아는 것은 GPT-4가 공개적으로 사용 가능한 데이터와 라이선스가 부여된 타사 데이터 모두에서 훈련된 후 RLHF를 사용하여 미세 조정된 변환기 스타일의 생성 다중 모드 모델이라는 것입니다. 흥미롭게도 OpenAI는 업그레이드된 RLHF 기술에 대한 세부 정보를 공유하여 모델 응답을 보다 정확하고 외부 안전 가드레일로 전환할 가능성을 줄였습니다. 정책 모델을 교육한 후(ChatGPT에서와 같이) RLHF는 적대적 교육에 사용됩니다. 적대적 교육은 향후 이러한 사례로부터 모델을 방어하기 위해 모델을 속이려는 악의적인 사례에 대해 모델을 교육하는 프로세스입니다. GPT-4의 경우 여러 분야의 인간 도메인 전문가가 적대적 프롬프트에 대한 정책 모델의 응답을 평가합니다. 그런 다음 이러한 응답은 정책 모델을 반복적으로 미세 조정하는 추가 보상 모델을 교육하는 데 사용되어 위험하거나 회피하거나 부정확한 응답을 제공할 가능성이 적은 모델을 생성합니다.

 

2. ChatGPT와 GPT-4: 성능 및 기능의 유사점 및 차이점

기능

기능 측면에서 ChatGPT와 GPT-4는 차이점보다 유사합니다. 이전 버전과 마찬가지로 GPT-4도 사용자와 일치하는 것을 목표로 하는 대화 스타일로 상호 작용합니다. 아래에서 볼 수 있듯이 광범위한 질문에 대한 두 모델 간의 응답은 매우 유사합니다. OpenAI는 모델 간의 차이가 미묘할 수 있다는 데 동의하며 "작업의 복잡성이 충분한 임계값에 도달하면 차이가 나타납니다."라고 주장합니다. GPT-4 기본 모델이 훈련 후 단계에서 겪은 6개월의 적대적 훈련을 감안할 때 이것은 아마도 정확한 특성화일 것입니다. 텍스트만 허용하는 ChatGPT와 달리 GPT-4는 이미지와 텍스트로 구성된 프롬프트를 허용하고 텍스트 응답을 반환합니다. 이 기사를 게시하는 시점에서 불행히도 이미지 입력을 사용할 수 있는 용량은 아직 대중에게 제공되지 않습니다.

성능

앞에서 언급했듯이 OpenAI는 GPT-3.5(ChatGPT가 미세 조정됨)에 비해 GPT-4의 안전 성능이 크게 향상되었다고 보고합니다. 그러나 허용되지 않는 콘텐츠에 대한 요청에 대한 응답 감소, 유해한 콘텐츠 생성 감소 및 민감한 주제에 대한 응답 개선이 GPT-4 모델 자체에 의한 것인지 추가적인 적대적 테스트에 의한 것인지는 현재로서는 명확하지 않습니다. 또한 GPT-4는 인간이 치르는 대부분의 학업 및 전문 시험에서 GPT-3.5보다 우수합니다. 특히 GPT-4는 Uniform Bar Exam에서 90번째 백분위수를 기록하고 GPT-3.5는 10번째 백분위수를 기록합니다. GPT-4는 또한 전통적인 언어 모델 벤치마크와 다른 SOTA 모델에서 이전 모델보다 훨씬 뛰어난 성능을 보입니다.

 

3. ChatGPT 대 GPT-4: 제한 사항의 유사점 및 차이점

ChatGPT와 GPT-4 모두 상당한 제한과 위험이 있습니다. GPT-4 시스템 카드에는 OpenAI에서 수행한 이러한 위험에 대한 자세한 탐색에서 얻은 통찰력이 포함되어 있습니다. 다음은 두 모델과 관련된 몇 가지 위험입니다. 환각(무의미하거나 사실적으로 부정확한 콘텐츠를 생성하는 경향), OpenAI 정책에 위배되는 유해 콘텐츠 제작(예: 혐오 발언, 폭력 선동), 소외된 사람들에 대한 고정관념 증폭 및 영속화, 속이려는 의도로 현실적인 허위 정보 생성. ChatGPT와 GPT-4가 동일한 제한과 위험으로 어려움을 겪고 있는 동안 OpenAI는 GPT-4에 대해 이를 완화하기 위해 광범위한 적대적 테스트를 포함하여 특별한 노력을 기울였습니다. 이는 고무적이지만 GPT-4 시스템 카드는 궁극적으로 ChatGPT가 얼마나 취약했는지(아마도 여전히 취약할 수 있음)를 보여줍니다. 유해한 의도하지 않은 결과에 대한 자세한 설명은 GPT-4 기술 보고서 38페이지에서 시작하는 GPT -4 시스템 카드를 읽어볼 것을 권장합니다.

 

결론

이 포스팅에서는 학습 방법, 성능 및 기능, 제한 및 위험을 포함하여 ChatGPT와 GPT-4 간의 가장 중요한 유사점과 차이점을 검토했습니다. 우리는 GPT-4의 모델 아키텍처와 교육 방법에 대해 훨씬 덜 알고 있지만, 이제 이미지 및 텍스트 입력을 받아들이고 더 안전하고 정확하며 창의적이라고 주장하는 세련된 버전의 ChatGPT로 보입니다. 안타깝게도 GPT-4는 ChatGPT Plus 구독의 일부로만 제공됩니다. 가장 정확하고 역동적인 대규모 언어 모델을 만들기 위한 경쟁은 ChatGPT와 GPT-4가 출시된 지 불과 몇 개월 만에 엄청난 속도에 도달했습니다. 흥미롭지만 빠르게 진화하는 대규모 언어 모델 환경을 탐색하려면 이러한 모델의 발전, 위험 및 제한 사항에 대한 정보를 유지하는 것이 필수적입니다.

반응형

댓글