본문 바로가기

Natural Language Processing36

LLM 관련 업로드 계획 공유 안녕하세요 비니입니다~최근 한달 정도 LLM 관련 업무를 하고 있는데요.업무를 하며 학습한 것, 느낀 것을 업로드하려 합니다 😊그럼 무엇을 업로드 할 건지 미리보기 해보죠 😉 무엇을 업로드 할 것인가?저는 현재 sLLM 을 Instruct tuning 하여 금융사, 보험사 대상 QA 모델을 개발하고 있습니다.B2B 프로젝트를 했을 때 성능 저하가 발생한 Question 을 분석하여 성능 향상을 위한 실험 설계를 진행중입니다.때문에 가장 먼저 업로드 할 것은 다음과 같습니다. 현재 배포된 데이터는 무엇이 있는가? 리스트업해당 데이터를 하고자 하는 Task 를 위해 학습하기 위해 데이터를 어떻게 변환할 것인가?RAG 학습을 위한 코드 분석Huggingface 오픈 소스 분석학습 코드 샘플 업로드만약 Do.. 2024. 8. 23.
LLM 공부를 위한 계획 벌써 설날이다. 이번 설날에는 휴일이 이틀 주어졌다. 이 기회를 활용해서 LLM 에 대한 공부를 할 계획이다. 어떤 공부를 할 건지 그 리스트와 공부 시간 계획을 공표(?)한다. 반드시 목표를 달성하리라~ Target 독자 : 설날에 목표를 달성하고자 하는 모든 사람 (동기부여가 됐으면 좋겠네요) 목차 1. 어떤 공부를 할 것인가 2. 언제 공부를 할 것인가 1. 어떤 공부를 할 것인가 LLM 학습을 위해 무엇을 알아야할까? 요즈음 LLM 학습은 3가지만 키워드만 알면 된다. Parameter-Efficient Fine-Tuning (a.k.a PEFT) Parallel and Distributed Training Trainer 3가지 키워드에 대한 개념과 어떻게 사용할 수 있는지 방법을 알아야 한다. .. 2024. 2. 9.
[LoRA] 실무자 맞춤 요점 파악하기 지난 포스팅에서는 LoRA 의 기본 개념을 실무자에 맞춰 설명했다. 이번 포스팅에서는 LoRA 가 코드 단에서는 어떻게 구현되어 있는지 실무자 맞춤 요점을 설명하겠다. 수식과 이론적인 논문 리뷰를 원한다면 다른 논문 리뷰 블로그를 참고하기 바란다. Target 독자: Deep Learning 전문가 목차 1. LoRA 에 대한 개념과 용어 사전 2. LoRA 는 어디에 있을까 3. LoRA 의 3가지 저장 형태 4. config setting 1. LoRA 에 대한 개념과 용어 사전 LoRA 에 대한 개념은 필자가 이전에 포스팅한 글을 참고하기 바란다. 링크: [LoRA] 논문 쉽게 설명하기 LoRA 의 요점을 파악하기에 앞서 용어를 먼저 통일하겠다. LoRA_A : {d x r} 차원의 nn.linea.. 2024. 2. 5.
[LoRA] 논문 쉽게 설명하기 21년 여름에 혜성처럼 등장해 최근 2년 동안 LLM 학습을 위해 사용되고 있는 LoRA 를 소개한다. LoRA 를 소개할 때 수식에 대한 내용은 최대한 제거하고 원리는 무엇인지, 모델 구조에서 학습을 위해 LoRA 가 어떻게 활용되는지를 위주로 설명하겠다. 때문에 논문 리뷰같지 않은 리뷰라고 느껴질 수 있다. 수식에 대한 내용이 궁금한 독자는 다른 사람의 논문 리뷰를 참고하기 바란다. Target 독자: Deep Learning 전문가 목차 1. Fully Fine-Tuning 이 힘든 이유 (간략) 2. LoRA 학습 방법 3. ( LoRA_B x LoRA_A ) 는 어디 Pretrain layer weight 에 더해지는가 4. 당연한 마무리 (이런게 좋아요~) 1. Fully Fine-Tuning.. 2024. 2. 1.
LLM 을 Pretrain 학습하려면,, 많은 기업이 ChatGPT 와 같은 LLM 을 만들어 서비스화 하고자 한다. 이를 위해 LLM 을 학습하여 서비스화하는 프로젝트를 수행할 인력을 불철주야 찾고 있다. (고 들었다..) 이번 포스팅은 LLM 을 학습하는 방법 중 가장 원초적인 방법인 Pretrain 이 왜 어려운지, 왜 많은 기업에서 LLM 을 학습할 인력을 구인하는지 그 이유에 대해 알아보겠다. ※ LLM 학습에 관심이 깊은 사람에게 도움이 되는 글임을 유의하길 바란다. 목차 1. Pretrain for LLM 방법s a. Pretrain LLM 처음부터 만들기 b. 배포된 Pretrain LLM 을 base 로 추가 Pretrain 하기 2. 기업이 말하는 '우리'가 만든 LLM 이란 3. 결론 (LLM 전문가를 구인하는 이유) 1. .. 2024. 1. 25.
[ALiBi] Train Short, Test Long: Attention With Linear Biases Enables Input Length Extrapolation 본 논문에서는 별도의 모델 재학습 없이 모델을 추론할 때 학습할 때의 Max_Length 보다 더 많은 Input Token 을 처리할 수 있는 방법을 제시했다. 이 방법을 줄여서 ALiBi 라 한다. Fine-Tuning 으로 사용되는 LLM 인 LLAMA-2 와 같은 NLG 모델이 ALiBi 와 같은 구조를 사용한다. 적용 모델: Generation Model (LLM 에 적용되어 사용되고 있음) 논문 링크: https://arxiv.org/pdf/2108.12409.pdf 목차 배경 문제 제기 ALiBi 방법 모델의 구조 결론 참고 문헌 1. 배경 ALiBi 는 Positional Embedding Issue 인 Max Length 를 늘려주면 성능 하락이 발생하는 문제를 해결 기존 Transfor.. 2024. 1. 17.
LLAMA 모델 구조 파악 이전 포스팅에서는 'LLM 을 학습하기 위해 어떻게 학습 데이터를 만들어야 하는지' 에 관해 소개했다. 이번 포스팅은 Backbone 이 되는 LLM 으로 가장 많이 활용되는 LLAMA 모델의 구조에 대해 알아보도록 하겠다. ※ NLP 전문가 Level 의 연구자에게 도움이 되는 글임을 유의하길 바란다. 목차 Model Architecture a. LlamaModel 구조 i. Embedding Layer ii. Decoder Layer b. CausalLM Layer 참고 문서 1. Model Architecture a. LlamaModel 구조 i. Embedding Layer nn.embeding 하나만 사용한다. Encoder 모델의 Embedding layer 와 다르다. Encoder 모델의 .. 2024. 1. 8.
LLM 학습을 위한 데이터 생성에 대하여,, 이전 포스팅에서는 LLM 에 관한 전반적인 내용을 비전문가도 이해할 수 있도록 소개했다. 이번 포스팅은 'LLM 을 학습하기 위해 어떻게 학습 데이터를 만들어야 하는지' 에 관해 알아보도록 하겠다. 이전 포스팅과 달리 전문가 Level 의 연구자에게 도움이 되는 글이라는 점을 유의하길 바란다. 목차 sLLM 이란? Supervised Fine-Tuning 의 중요성 학습 데이터 생성 방법 학습된 모델의 예측 경향성 1. sLLM 이란? sLLM 은 small Large Language Models 의 줄인 말이다. 좀 이상하지 않은가? small Large 라는 표현이... 이상해도 어쩔 수 없다. 그냥 LLM 의 수식어로 small 이 들어갔다고 생각하자. LLM 인데 다소 작은 LLM 이라는 의미다... 2023. 12. 29.
ChatGPT Prompt 작성 팁 지난 포스팅에서는 LLM 의 치명적인 이슈인 할루시네이션을 줄이는 방법에 대해 알아봤다. 이번 글은 사용자가 원하는 답변을 얻기 위해 LLM 에 질문하는 방법인 Prompt 팁을 다루고자 한다. 단, 필자의 글은 Prompt 를 어떻게 구성해야 좋은지 경험적인 근거를 바탕으로 작성했음을 유의하길 바란다. 경험적 근거이기 때문에 정량적으로 판단하지 못했다. 지난 포스팅 링크: LLM 의 할루시네이션을 줄이는 방법 ※ 필자가 실제 프로젝트에서 수행한 결과를 바탕으로 Prompt 형식을 추천하였음. 좋은 Prompt 의 근거는 정량적 지표의 기준을 잡기 힘들었기 때문에 경험적 근거에 가까움 Prompt 팁 팁 리스트 Few-Shot Learning 이론은 LLM 의 할루시네이션을 줄이는 방법 에서 In-Con.. 2023. 12. 27.
LLM 의 할루시네이션을 줄이는 방법 지난 포스팅에서는 LLM 을 어떻게 만드는지(=학습하는지), LLM 의 단점은 무엇인지(단점: 할루시네이션) 그리고 할루시네이션을 줄이기 위한 학습 방법은 무엇인지 알아봤다. 이번 글은 LLM 의 단점인 할루시네이션을 줄이기 위한 전략을 다룬다. 전략이기 때문에 LLM 학습이 아닌 점을 참고하길 바란다. 지난 포스팅 링크: LLM 학습에 대한 고찰 ※ 글에서 언급하는 단어에 혼동이 있을 수 있습니다. ['인공지능 모델', 'Generation 모델', '모델'] 이라는 표현은 모두 ChatGPT 와 같은 LLM 을 의미합니다. ['Input', 'Input text'] 의 의미는 LLM 에 들어가는 글(=text)을 의미합니다. ['Output', 'Output text'] 의 의미는 LLM 에서 Inp.. 2023. 12. 27.
반응형