본문 바로가기

Contents84

[PyTorch] nn.Transformer 모델 구조 상세 확인 17년도 Attention is all you need 논문 이후로 대 Transformer 구조의 시대에 살고 있다.NLP 의 역사를 돌아보면 슬슬 새로운 Architecture 가 나올 타이밍이긴 하지만 아직은 대 Transformer 구조의 시대가 지속되고 있다고 해도 과언이 아니다. (요즘에는 디퓨전 모델과 같은 방식으로 텍스트를 생성하는 방식이 뜨고 있는 것 같긴 하지만 필자 생각에는 이 또한 Transformer 구조다.)생성형 모델의 가치가 엄청나게 높아진 요즘 생성형 모델의 근간이 되는 Decoder 모델의 아버지이자 어머니인 Transformer 모델의 구조는 어땠는지를 확인해봤다.본 포스팅은 실무자를 위한 내용으로 Transformer 구조를 상세하게 다루었다.목차1. Transfor.. 2025. 3. 12.

[LLaMA-Factory] LoRA Adapter 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 학습 시 LoRA 를 활용한다면 어떤 Adapter 를 생성하여 학습하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 LoRA 활용한 학습 시 Adapter 및 arguments 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. 생성되는 LoRA Adapter 확인 및 커스터마이즈 3. LoRA Config 설정 for Hyper-Parameter 셋팅4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가 .. 2025. 2. 27.

[LLaMA-Factory] Tokenizer padding_side 확인 LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그 중 SFT 학습 시 Tokenizer padding_side 를 어떻게 설정하는지 확인했다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 SFT 학습 시 Tokenizer padding_side 셋팅이 어떻게 되어 있는지 코드를 통해 확인한 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. padding_side = 'right' 에 의한 데이터 구성3. padding_side = 'left' 에 의한 데이터 구성 4. 필자 리뷰 LLaMA-Factory github 바로가기1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.필자가 파악하고자 한 주요 원인은 다음과 같다.LLaMA-Factory 로 내가.. 2025. 2. 22.

[독후감] 피터 드러커 자기경영노트 > 적용점 정리 약 한 달 전에 `피터 드러커 자기경영노트` 책을 읽었다.두 번째 읽었는데 업무에 대한 관점이 달라져서인지 그간 성장해서인지 굉장히 많은 인사이트와 적용점이 있음을 깨닫고 독후감을 쓰게 되었다.책에서 어떤 언급을 했는지를 그대로 옮겨 적고 업무 및 삶에 적용점을 찾는 목적으로 독후감을 쓴다. ※ 예상 독자: 자기경영노트를 읽고 다른 사람의 적용점을 확인하고 싶은 `일잘러 ` 목차1. 자기경영노트 목차 및 내용 기록 리스트2. 적용점1. 자기경영노트 목차 및 내용 기록 리스트 시작하며: 어떻게 목표를 달성하는 경영자가 될 수 있는가 더보기목표를 달성하는 경영자는 자신의 자원을 분산하지 않는다. 그들은 모든 일이 가능해도 한 가지 과업에 집중한다. 만약 그들이 업무 전환에 탁월한 극소수에 속하여 최선을 다한.. 2025. 2. 17.

[LLaMA-Factory] PT&SFT 학습 데이터는 어떻게 만들어지는가? LLM 오픈소스 중 가장 유명한 LLaMA-Factory 를 파악하고 있다.그중 Pretrain(a.k.a PT) 과 Supervised Fine-Tuning(a.k.a SFT) 에서 학습 데이터를 어떤 형태로 만드는지 실무자로서 가장 궁금했다.추후에 회사 프로젝트에서 sLLM 을 학습해야 한다면 LLaMA-Factory 도 좋은 수단으로 생각했기 때문에 데이터는 어떤 형태로 구성되는지 소스 코드를 통해 상세하게 파악할 필요가 있었기 때문이다.본 포스팅은 오픈소스인 LLaMA-Factory 에서 PT, SFT 학습 시 학습 데이터를 어떻게 encode 하는지 그 과정과 결과를 소개한다.목차1. 실무자는 바쁘다.! 결론부터 말씀드릴게요.2. PT 학습 시 학습 데이터 형태3. SFT 학습 시 학습 데이터 .. 2025. 1. 22.

[논문 리뷰] 실무자를 위한 SAINT 논문 리뷰 SAINT 는 Riiid AI Research team 에서 2020년 2월 14일에 투고한 논문으로 학생의 지식 수준을 측정하는 목적의 Deep Learning Model 에 관한 내용이다.Transformer architecture 를 기반으로 Knowledge Tracing task 를 수행하였다.본 포스팅을 읽기 전에 필자가 이론편으로 업로드한 SAINT 와 SAINT+ 에 대해 먼저 확인하는 걸 추천한다.1. SAINT 논문 이론 링크 바로가기2. SAINT+ 논문 이론 링크 바로가목차1. 코드 재현을 위해 참고한 링크 소개2. 데이터셋 소개3. 데이터 Input 형태 확인4. 모델 구조5. 필자 리뷰 1. 코드 재현을 위해 참고한 링크 소개 먼저 필자가 재직하는 회사의 개발 서버는 cuda v.. 2025. 1. 18.

[논문 리뷰] CRKT 논문 리뷰 - 코드편 지난 포스팅에서는 객관식 문제에 대해 다양한 Input 을 활용하여 Knowledge Tracing task 를 수행한 CRKT 논문에 대해 소개했다.해당 논문은 github 코드가 굉장히 친절하게 짜여졌다.본 포스팅에서는 CRKT 논문 저자가 개발한 코드에 대해 설명하고자 한다.코드의 Flow 와 그 의미에 대해 상세히 다루도록 하겠다.목차1. CRKT github 소개2. Preprocessed DBE_KT22 dataset info. 3. Model Architecture 4. Model Train5. 필자 리뷰 1. CRKT github 소개github link: https://github.com/Soonwook34/CRKT/tree/main논문 저자인 박순욱님께서 개발 및 배포하신 코드코드 파.. 2025. 1. 11.

[논문 리뷰] CRKT 논문 리뷰 - 이론편 작년 12월에 EduTech 기업으로 이직 하여 12월 중순부터 EduTech 의 꽃이라 불리는(?) Knowledge Tracing 모델에 대해 리서치를 하고 있다.리서치 중 논문 내용도 좋고 github 코드도 친절하게 짜여진 CRKT 논문에 대해 소개하고자 한다.CRKT 논문은 이론편과 구현편 2가지로 나누어 포스팅 할 예정이다.본 포스팅 글은 이론편에 속한다.목차1. 논문 소개2. 문제 제기 및 해결 방안3. 학습 방법4. 모델 구조5. 성능 평가6. 필자 리뷰 1. 논문 소개논문명: Enhancing Knowledge Tracing with Concept Map and Response Disentanglement폴리인스퍼레이션에서 성균관대학교와 협업하여 개발한 KT Model(a.k.a CRK.. 2025. 1. 6.

EMNLP 2024 투고록 ③ - 논문 발표 금년도 EMNLP 학회에 논문을 투고했습니다~정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.마지막으로 논문 Accept 후 논문 발표를 어떻게 준비했는지에 대해 상세하게 다루겠습니다.EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :) 논문 투고 일정출처: https://2024.emnlp.org/calls/industry_track/날짜일정설명24년 7월 18일논문 제출논문 제출 마감 날짜24년 9월 5~11일RebuttalsReviewer 와 저자의 토론 기간24년 10월 1일Accept 논문 발표학회 등.. 2024. 11. 8.

EMNLP 2024 투고록 ② - Reviewer rebuttals 금년도 EMNLP 학회에 논문을 투고했습니다~정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.두 번째로 논문 작성 후 Review 를 어떻게 대응했는지, 대응하는 Tip 은 무엇인지에 대해 상세하게 다루겠습니다.EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :) 논문 투고 일정출처: https://2024.emnlp.org/calls/industry_track/날짜일정설명24년 7월 18일논문 제출논문 제출 마감 날짜24년 9월 5~11일RebuttalsReviewer 와 저자의 토론 기간24년 10월 1일A.. 2024. 11. 4.

이전 1 2 3 4 ··· 9 다음

티스토리툴바