본문 바로가기

Paper review6

[논문 리뷰] CRKT 논문 리뷰 - 코드편 지난 포스팅에서는 객관식 문제에 대해 다양한 Input 을 활용하여 Knowledge Tracing task 를 수행한 CRKT 논문에 대해 소개했다.해당 논문은 github 코드가 굉장히 친절하게 짜여졌다.본 포스팅에서는 CRKT 논문 저자가 개발한 코드에 대해 설명하고자 한다.코드의 Flow 와 그 의미에 대해 상세히 다루도록 하겠다.목차1. CRKT github 소개2. Preprocessed DBE_KT22 dataset info. 3. Model Architecture 4. Model Train5. 필자 리뷰 1. CRKT github 소개github link: https://github.com/Soonwook34/CRKT/tree/main논문 저자인 박순욱님께서 개발 및 배포하신 코드코드 파.. 2025. 1. 11.

[논문 리뷰] CRKT 논문 리뷰 - 이론편 작년 12월에 EduTech 기업으로 이직 하여 12월 중순부터 EduTech 의 꽃이라 불리는(?) Knowledge Tracing 모델에 대해 리서치를 하고 있다.리서치 중 논문 내용도 좋고 github 코드도 친절하게 짜여진 CRKT 논문에 대해 소개하고자 한다.CRKT 논문은 이론편과 구현편 2가지로 나누어 포스팅 할 예정이다.본 포스팅 글은 이론편에 속한다.목차1. 논문 소개2. 문제 제기 및 해결 방안3. 학습 방법4. 모델 구조5. 성능 평가6. 필자 리뷰 1. 논문 소개논문명: Enhancing Knowledge Tracing with Concept Map and Response Disentanglement폴리인스퍼레이션에서 성균관대학교와 협업하여 개발한 KT Model(a.k.a CRK.. 2025. 1. 6.

[논문 리뷰]LongSkywork: A Training Recipe for Efficiently Extending Context Length Continual Pretrain Training 시 Input contexts 구성을 어떻게 하는게 모델 성능 향상에 도움이 될지를 서치하던 중 발견한 논문이다.본 논문은 draft 하게 확인했기 때문에 상세한 내용 확인을 위해서는 직접 Detail check 이 필요하다.목차1. 논문의 목적2. 개요3. Methodology4. 실험 결과 1. 논문의 목적컨텍스트 길이 확장효율적인 훈련 방법 제안일반적인 장문 처리 능력 향상 2. 개요CIP와 SynL 방법을 통해 효율적으로 장문 컨텍스트 학습 데이터를 생성하고, 이를 통해 모델의 장문 처리 능력을 크게 향상LongSkywork는 최대 200,000 토큰의 컨텍스트를 처리할 수 있는 장문 LLM합성 데이터의 사용이 실제 수집된 장문 데이터보다 더 효과.. 2024. 10. 17.

[논문 리뷰] Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization 들어가며,, 본 글은 "Kakao Enterprise AI Research" 블로그 글을 참고하였습니다. 논문을 읽지 않고 블로그 글로 리뷰를 했다는 점을 밝힙니다. 블로그 글 원본 링크는 다음과 같습니다. https://kakaoenterprise.github.io/deepdive/210729 텍스트 요약 모델 성능 평가를 위한 새로운 척도, RDASS를 소개합니다. 더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는 kakaoenterprise.github.io 기존 요약 task 성능 지표의 한계와 RDASS의 등장 배경 요약 task에서 사용하는 성능 지표는 ROUG.. 2022. 11. 9.

[논문 리뷰] SimCSE: Simple Contrastive Learning of Sentence Embeddings 들어가며,, 비즈니스에 해당 논문 기술을 적용한다는 마인드로 논문 리뷰를 하기 때문에 논문 연구 결과 파악을 위한 리뷰와는 다소 차이가 있을 수 있음을 미리 말씀드립니다. Simple review for parper Supervised & Unsupervised SimCSE 제안 (21년 4월 발간) Unsupervised SimCSE (자체적으로 label을 만들어 줌) Positive pair: 동일한 문장 embedding layer에 동일한 문장을 넣어 drop out(p=0.1)을 통해 다른 embedding 값을 얻어줌 이러한 drop out 이 최소한의 data augmentation 이라고 함 (다른 방식 ex. 삭제, 대체, etc… 사용해 봤는데 drop out이 성능이 제일 좋았다고 .. 2022. 8. 31.

[논문 리뷰] Distilling Linguistic Context for Language Model Compression 목적 💡 기존의 경량화는 단어 간 관계를 고려하지 않았고 단어가 model의 encoder layer를 통과하며 어떻게 변화하는지도 고려하지 않았음 기존 경량화: 단순히 학생 모델이 선생 모델의 weight를 따라가도록, logit 값을 따라가도록 학습 본 논문: logit 값을 따라갈 뿐만 아니라 단어 간 관계 및 단어가 encoder layer를 통과하며 어떻게 변하는지도 고려해서 학습 실험 방법 Model: Google’s Multi-lingual-BERT model Pre-train BERT 모델에 Distillation하여 경량화 된 BERT모델을 만들고 각 task datasets을 이용한 Fine-tuning 후 성능 비교 Pre-train distillation datasets: Engli.. 2022. 6. 23.

이전 1 다음

티스토리툴바