본문 바로가기

python23

[경량화 패키지] TextBrewer 학습 Process Total loss 정의 KD loss : Knowledge Distillation loss로 학생 모델의 logits이 교사 모델의 logits 분포를 따라가도록 학습 HL loss : Hard Label로 학생 모델의 logits이 groud truth of label을 따라가도록 학습 Intermediate_losses : 학생 모델의 encoder layer 분포가 교사 모델의 encoder layer 분포를 따라가도록 학습 다양한 기능 제공 > 자세한 사항은 textbrewer docs 참고 KD loss 관련 기능 KD loss weight 설정 temperature 관련 Parameters loss type 관련 Parameters HL loss 관련 기능 (+ Inermediate_loss.. 2022. 6. 17.
[경량화 패키지] TextBrewer scripts info. Main scripts 🗂️TextBrewer |-🗂️src |-🗂️textbrewer |-📄configurations.py # teacher model 기반으로 Student model initial weight 값 설정 # DistillationConfig 의 input 으로 들어감 -IntermediateMatch(type:class) |-📄configurations.py # knowledge distillation 학습을 위한 hyperparameters setting -DistillationConfig(type:class) # distiller define & train script 나열(?)된 script |-📄distillers.py |-📄distiller_general.py -General.. 2022. 6. 17.
[경량화 패키지] TextBrewer란? Simple info of Textbrewer lib. 💡 모델 경량화를 위한 함수를 제공해주는 scripts BERT 모델 뿐만 아니라 다양한 모델(ex. GPT, LSTM, etc...) 경량화 가능 Teacher & Student 모델 구조가 달라도 경량화 가능 (ex. Teacher: BERT, Student: LSTM) 다양한 loss function이 있고 사용자가 loss를 append할 수 있도록 코드 구성 Workflow Stage 1: Preparation: 교사 모델 선택 학생 모델 정의 학습 준비 (데이터, optim, lr_scheduler, etc...) Stage 2: Distillation with TextBrewer: TraningConfig 및 DistillationCon.. 2022. 6. 17.
반응형