본문 바로가기

Pretrain3

LLM 을 Pretrain 학습하려면,, 많은 기업이 ChatGPT 와 같은 LLM 을 만들어 서비스화 하고자 한다. 이를 위해 LLM 을 학습하여 서비스화하는 프로젝트를 수행할 인력을 불철주야 찾고 있다. (고 들었다..) 이번 포스팅은 LLM 을 학습하는 방법 중 가장 원초적인 방법인 Pretrain 이 왜 어려운지, 왜 많은 기업에서 LLM 을 학습할 인력을 구인하는지 그 이유에 대해 알아보겠다. ※ LLM 학습에 관심이 깊은 사람에게 도움이 되는 글임을 유의하길 바란다. 목차 1. Pretrain for LLM 방법s a. Pretrain LLM 처음부터 만들기 b. 배포된 Pretrain LLM 을 base 로 추가 Pretrain 하기 2. 기업이 말하는 '우리'가 만든 LLM 이란 3. 결론 (LLM 전문가를 구인하는 이유) 1. .. 2024. 1. 25.
LLM 학습에 대한 고찰 ChatGPT 의 등장 이후 LLM 의 인기가 어마어마하다. 필자의 개인적인 생각으로는 2015년 알파고의 파급력보다 ChatGPT 의 파급력이 더 크다고 생각한다. 많은 Tech 기업에서는 자체 기술력으로 LLM 을 만들고 서비스할 수 있다고 광고하고 있다. 본 포스팅에서는 LLM 을 어떻게 학습할 수 있는지, 학습 방법 별 특징은 무엇인지 설명한다. 필자는 LLM 을 효율적으로 활용하기 위해서는 학습 방법을 이해해야 한다고 생각한다. 인공지능 모델은 학습한대로 예측하는 경향성을 띄기 때문이다. ※ 글에서 언급하는 단어에 혼동이 있을 수 있습니다. ['인공지능 모델', 'Generation 모델', '모델'] 이라는 표현은 모두 ChatGPT 와 같은 LLM 을 의미합니다. ['Input', 'Inpu.. 2023. 12. 26.
[소개] 초거대 언어 모델이란? 들어가며.. 최근 여러 대기업에서 자신들이 만든 초거대 언어 모델을 소개하며 홍보하는 걸 자주 접할 수 있다. 물론 해당 분야에 관심이 있는 사람들만 접할 수 있었겠지만 본 포스팅을 읽는 독자들은 접했으리라 믿는다. 대기업들은 왜 초거대 언어 모델을 만드는지, 왜 초거대 언어 모델이 필요한지, 초거대 언어 모델의 장점은 무엇인지 본 포스팅에서 소개하도록 하겠다. 초거대 언어 모델이란? AI라고 부르는 인공지능은 간단히 말하면 일종의 함수(y = f(x))이다. 챗봇을 예로 들면 발화자의 말이 text로 변환되어 함수의 x로 들어가 인공지능이라는 함수 내부에서 여러 계산이 이루어진다. 계산의 결과는 y로 발화자의 말에 대답하는 text가 된다. 그렇다면 왜 여러 대기업에서 파라미터가 5,000 억개, 1조.. 2022. 7. 16.
반응형