본문 바로가기

논문 리뷰5

[LoRA] 실무자 맞춤 요점 파악하기 지난 포스팅에서는 LoRA 의 기본 개념을 실무자에 맞춰 설명했다. 이번 포스팅에서는 LoRA 가 코드 단에서는 어떻게 구현되어 있는지 실무자 맞춤 요점을 설명하겠다. 수식과 이론적인 논문 리뷰를 원한다면 다른 논문 리뷰 블로그를 참고하기 바란다. Target 독자: Deep Learning 전문가 목차 1. LoRA 에 대한 개념과 용어 사전 2. LoRA 는 어디에 있을까 3. LoRA 의 3가지 저장 형태 4. config setting 1. LoRA 에 대한 개념과 용어 사전 LoRA 에 대한 개념은 필자가 이전에 포스팅한 글을 참고하기 바란다. 링크: [LoRA] 논문 쉽게 설명하기 LoRA 의 요점을 파악하기에 앞서 용어를 먼저 통일하겠다. LoRA_A : {d x r} 차원의 nn.linea.. 2024. 2. 5.
[LoRA] 논문 쉽게 설명하기 21년 여름에 혜성처럼 등장해 최근 2년 동안 LLM 학습을 위해 사용되고 있는 LoRA 를 소개한다. LoRA 를 소개할 때 수식에 대한 내용은 최대한 제거하고 원리는 무엇인지, 모델 구조에서 학습을 위해 LoRA 가 어떻게 활용되는지를 위주로 설명하겠다. 때문에 논문 리뷰같지 않은 리뷰라고 느껴질 수 있다. 수식에 대한 내용이 궁금한 독자는 다른 사람의 논문 리뷰를 참고하기 바란다. Target 독자: Deep Learning 전문가 목차 1. Fully Fine-Tuning 이 힘든 이유 (간략) 2. LoRA 학습 방법 3. ( LoRA_B x LoRA_A ) 는 어디 Pretrain layer weight 에 더해지는가 4. 당연한 마무리 (이런게 좋아요~) 1. Fully Fine-Tuning.. 2024. 2. 1.
[논문 리뷰] Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization 들어가며,, 본 글은 "Kakao Enterprise AI Research" 블로그 글을 참고하였습니다. 논문을 읽지 않고 블로그 글로 리뷰를 했다는 점을 밝힙니다. 블로그 글 원본 링크는 다음과 같습니다. https://kakaoenterprise.github.io/deepdive/210729 텍스트 요약 모델 성능 평가를 위한 새로운 척도, RDASS를 소개합니다. 더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는 kakaoenterprise.github.io 기존 요약 task 성능 지표의 한계와 RDASS의 등장 배경 요약 task에서 사용하는 성능 지표는 ROUG.. 2022. 11. 9.
[논문 리뷰] SimCSE: Simple Contrastive Learning of Sentence Embeddings 들어가며,, 비즈니스에 해당 논문 기술을 적용한다는 마인드로 논문 리뷰를 하기 때문에 논문 연구 결과 파악을 위한 리뷰와는 다소 차이가 있을 수 있음을 미리 말씀드립니다. Simple review for parper Supervised & Unsupervised SimCSE 제안 (21년 4월 발간) Unsupervised SimCSE (자체적으로 label을 만들어 줌) Positive pair: 동일한 문장 embedding layer에 동일한 문장을 넣어 drop out(p=0.1)을 통해 다른 embedding 값을 얻어줌 이러한 drop out 이 최소한의 data augmentation 이라고 함 (다른 방식 ex. 삭제, 대체, etc… 사용해 봤는데 drop out이 성능이 제일 좋았다고 .. 2022. 8. 31.
[논문 리뷰] Distilling Linguistic Context for Language Model Compression 목적 💡 기존의 경량화는 단어 간 관계를 고려하지 않았고 단어가 model의 encoder layer를 통과하며 어떻게 변화하는지도 고려하지 않았음 기존 경량화: 단순히 학생 모델이 선생 모델의 weight를 따라가도록, logit 값을 따라가도록 학습 본 논문: logit 값을 따라갈 뿐만 아니라 단어 간 관계 및 단어가 encoder layer를 통과하며 어떻게 변하는지도 고려해서 학습 실험 방법 Model: Google’s Multi-lingual-BERT model Pre-train BERT 모델에 Distillation하여 경량화 된 BERT모델을 만들고 각 task datasets을 이용한 Fine-tuning 후 성능 비교 Pre-train distillation datasets: Engli.. 2022. 6. 23.
반응형