gpt(generative pretrained transformer)
언어모델(랭귀지모델)의 한 종류
언어모델: 주어진 문장 뒤에 이어질 자연스러운 단어 예측
chat-gpt의 학습원리: RHLF
gpt-3를 기반으로 다양한 task를 prompt로 만들어서 그에 대한 답을 다음 단어를 예측하는 형태로 추가적인 학습방식을 제공.
instruction활용한 fine-tuning 방식 활용=instruction-tuning
-학습방법인RLHF란?
배경)분류나 번역등 명확한 데이터를 통해 학습 트레이닝,
-> 사람이 할법한 다양한 질문들과 답변 못함
->사람들의 피드백을 받아 답변강화학습
-> 사람이 답변의 순위를 매김 -> 강화모델훈련
-> 이 강화모델로 언어모델의 추론 강화학습
=RLHF(Reinforcement Learning from Human Feedback)
단계1:설명데이터를 모아서 지도학습 형태로 언어 모델을 학습
(prompt 데이터에서 하나 선택 -> 사람이 해당되는 출력을 작성 -> 언어모델인 gpt-3를 fine tunning)
단계2: 비교 데이터를 모아서 점수 측정 모델을 학습
(데이터를 토대로 gpt-3가 답변추론-> 사람이 순위를 매김 -> 점수측정 모델 훈련)
단계3: 점수 측정 모델을 활용해 언어모델을 강화학습으로 추가학습
(새로운 prompt선택 -> 언어모델 추론 -> 점수측정모델의 언어모델 강화학습-> 반복)
-어려운 문제를 작은 문제로 분해하기
full-shot형태로 작은 문제들에 대한 답-> 작은문제들에 대한 답을 이용해 원래의 복잡한 어려운 문제 풀게함
-쉽고 작은 문제를 사전에 정의하여 어려운 문제를 푸는데 활용
..요청을 처리하기 위해 계획을 생성 및 실행
..GPT가 할 수 있는 행동을 사전에 정의
..일종의 자연어 프로그래밍
GPT-4: 기존 버전에서 이미지 검색기능 추가
<요약>
gpt는 다음 단어를 맞추는 언어모델
학습자료 크기가 커지면 모델도 커지는 것이 효율적 -> 거대 언어 모델 등장
-prompt를 활용하여 목표 과제를 언어 모델로 해결
-instuction tuning: 다양한 과제를 prompt형태로 한 번에 fine-tuning
-planning: 과제 해결을 위해 계획 수립 및 수행하는 구조를 prompt로 구현