Contents77 [Project-버버두] 개발기 #1 : 기획 4월부터 6월까지 가계부 서비스 버버두(Budget Buddy 너두? 나두!)를 개발했다.처음 진행하는 사이드 프로젝트였기에 개발기를 남긴다.개발기는 1. 기획, 2. 개발, 3. 서빙 4. 우여곡절 순으로 포스팅하겠다.본 포스팅은 1. 기획에 해당한다. 목차1. 사전 조사2. 서비스 철학 정의3. 기능 설계 1. 사전 조사기획을 하며 동시에 존재하는 가계부 서비스를 조사하는 시장조사를 진행했다.기획 초기부터 우리 서비스의 특장점을 정의했기에 동일한 목적으로 개발된 서비스가 있는지 확인하기 위함이었다. 그렇기에 조사의 목적은 각 서비스가 어떤 고객의 무엇을 해결하고자 하였는가? 였다. 제품명다운로드 수별점강점약점편한가계부10M 이상4.8- 직관적 지출 확인- 지출 입력 편이- 예산을 미리 기획하는 기능 .. 2024. 9. 21. RAGAS+LangSmith 로 LLM 생성 데이터 평가하기 LLM 을 통해 생성된 답변의 성능을 평가하는건 어려운 Task 이다.현재 평가 방법으로는 성능이 좋은 LLM 모델을 통해 평가하는 방법(LLM-as-a-judge, Pheonix, RAGAS, DeepEval)은 많지만 해당 평가 방법을 프로젝트에 적용시키기는 쉽지 않다.본 포스팅은 프로젝트에 가장 많이 활용되는 RAG Process 의 생성 답변 성능을 RAGAS 로 평가하는 과정과 그 결과에 대해 다루도록 한다.RAGAS 의 성능 근거를 확인하기 위해 LangSmith 를 통해 Log 를 확인한 결과도 다루겠다.※ sLLM 에 대한 연구를 하는 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. 사용 결과 피드백2. 환경 설정3. 평가할 데이터 Load4. 모델 평가5. 성능 평가 근거 확인 .. 2024. 9. 5. HuggingFace HUB 로 모델 및 데이터셋 관리하기 LLM 에 대한 연구를 하는 사람이라면 누구나 disk 용량 관리에 어려움을 겪었을거라 생각한다.sLLM 이라도 16bf 인 7~8B 모델의 size 가 14~16GB 가 되기 때문이다.모델을 4개만 저장해도 50GB 가 넘는다.데이터셋 또한 Pretrain 용 Corpus 는 GB 단위이기에 모델뿐만 아니라 데이터셋도 관리해줘야 한다.이번 포스팅은 점점 커지는 Size 의 모델과 데이터셋을 HF(HuggingFace) HUB 로 관리하는 방법을 설명하고자 한다.※ sLLM 에 대한 연구를 하는 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. Model 을 HF HUB 에 저장하고 불러오기2. 서버의 cache 관리하기3. Dataset 을 HF HUB 에 저장하고 불러오기 1. Model 을 H.. 2024. 9. 3. LoRA 학습 코드 예시 LLM 에 대한 연구를 하는 사람이라면 누구나 LoRA 를 들어봤을거라 생각한다.이번 포스팅은 LoRA 및 qLoRA 학습 코드 예시를 step by step 으로 설명하고자 한다.※ sLLM Instruct tuning 에 관심이 깊은 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. Model define2. LoRA config define3. Train datasets define4. Arguments setting and Train5. 마무리,, 1. Model defineLoRA 또는 qLoRA 학습을 위해서는 Model 과 Tokenizer 를 불러와야 한다.본 예시에서는 beomi 님이 배포하신 Llama-3-Ko 모델을 foundation 으로 사용해보았다.## load module.. 2024. 9. 2. LLM 관련 업로드 계획 공유 안녕하세요 비니입니다~최근 한달 정도 LLM 관련 업무를 하고 있는데요.업무를 하며 학습한 것, 느낀 것을 업로드하려 합니다 😊그럼 무엇을 업로드 할 건지 미리보기 해보죠 😉 무엇을 업로드 할 것인가?저는 현재 sLLM 을 Instruct tuning 하여 금융사, 보험사 대상 QA 모델을 개발하고 있습니다.B2B 프로젝트를 했을 때 성능 저하가 발생한 Question 을 분석하여 성능 향상을 위한 실험 설계를 진행중입니다.때문에 가장 먼저 업로드 할 것은 다음과 같습니다. 현재 배포된 데이터는 무엇이 있는가? 리스트업해당 데이터를 하고자 하는 Task 를 위해 학습하기 위해 데이터를 어떻게 변환할 것인가?RAG 학습을 위한 코드 분석Huggingface 오픈 소스 분석학습 코드 샘플 업로드만약 Do.. 2024. 8. 23. 3월부터 7월까지 나의 행보 정말 오랜만에 글을 올립니다. 마지막 글이 2월이었더라고요 🤣3월부터 지금까지 정말 정신없이 살아왔기에 블로그를 관리하는데 소홀했던 것 같습니다.그동안 무엇을 했는지 그 기록을 남깁니다 😉목차1. 이직 준비2. 2024 제주 AI 컨퍼런스3. 가계부 서비스 개발4. 논문 작성99. 사명 점검1. 이직 준비올해 2월부터 가고 싶었던 산업인 EduTech 로 이직을 준비했습니다.왜 EduTech 인가? 에 대한 답은 저의 사명을 실현하기 위해서였다. 라고 답할 수 있겠네요.당시 저의 사명은 이랬습니다.상황이 어렵고 소외된 아이들이 당당한 사회인이 될 수 있도록 양질의 교육 제품을 개발&제공하는 AI 연구원 하지만 EduTech 산업으로 이직을 하려하니 고민되는게 많았습니다.EduTech 로 가게 되면 다.. 2024. 8. 22. Triton Server 환경 구축하기 Triton Server 는 Deep Learning Model 을 Inference 하는데 GPU 자원을 최적으로 할당하여 서비스를 구축하기 편하게 해주는 환경이다. Torch, Tensorflow 와 같은 다양한 framework 를 지원하기 때문에 여러 종류의 모델을 하나의 Docker container 기반으로 배포할 수 있다. 즉, Triton Server 는 Docker container 기반의 Open-source inference serving software 라 할 수 있다. 본 포스팅에서는 실무자의 입장을 고려하여 Triton Server 환경을 구축하는 방법을 다룬다. 실무자의 상황을 고려하며 Docker Image 관리 및 Container 를 편하게 관리하는 노하우에 대해 소개하겠.. 2024. 2. 20. 릴리스 AI 로 영상 요약하기 리서치를 하다 보면 블로그와 같은 Text 정보와 영상으로 된 정보를 만나게 된다. Text 정보는 내가 원하는 부분만 찾으면 되지만 영상은 그렇게 하기 쉽지 않다. 영상의 길이가 길수록 원하는 내용을 찾기는 더욱 어려워진다. 이번 제품 리뷰에서는 이러한 문제를 해결해줄 수 있는 릴리스 AI 를 소개한다. 릴리스 AI 를 어떻게 사용하는지, 그 효율은 어떠한지 직접 사용해 보겠다. 수많은 정보의 파도 속에 릴리스 AI 를 어떻게 사용하면 좋을지 리뷰해 보겠다. 목차 1. 릴리스 AI 란? 2. 결과부터 보여줄게요 3. 어떻게 사용할 수 있을까? 4. 필자 의견 1. 릴리스 AI 란? 유튜브 영상을 요약해 줄 뿐만 아니라 영상 내용을 블로그 글로 작성해 주는 AI 제품이다. 현재는 영상 요약만 가능하지만 .. 2024. 2. 12. LLM 공부를 위한 계획 벌써 설날이다. 이번 설날에는 휴일이 이틀 주어졌다. 이 기회를 활용해서 LLM 에 대한 공부를 할 계획이다. 어떤 공부를 할 건지 그 리스트와 공부 시간 계획을 공표(?)한다. 반드시 목표를 달성하리라~ Target 독자 : 설날에 목표를 달성하고자 하는 모든 사람 (동기부여가 됐으면 좋겠네요) 목차 1. 어떤 공부를 할 것인가 2. 언제 공부를 할 것인가 1. 어떤 공부를 할 것인가 LLM 학습을 위해 무엇을 알아야할까? 요즈음 LLM 학습은 3가지만 키워드만 알면 된다. Parameter-Efficient Fine-Tuning (a.k.a PEFT) Parallel and Distributed Training Trainer 3가지 키워드에 대한 개념과 어떻게 사용할 수 있는지 방법을 알아야 한다. .. 2024. 2. 9. [LoRA] 실무자 맞춤 요점 파악하기 지난 포스팅에서는 LoRA 의 기본 개념을 실무자에 맞춰 설명했다. 이번 포스팅에서는 LoRA 가 코드 단에서는 어떻게 구현되어 있는지 실무자 맞춤 요점을 설명하겠다. 수식과 이론적인 논문 리뷰를 원한다면 다른 논문 리뷰 블로그를 참고하기 바란다. Target 독자: Deep Learning 전문가 목차 1. LoRA 에 대한 개념과 용어 사전 2. LoRA 는 어디에 있을까 3. LoRA 의 3가지 저장 형태 4. config setting 1. LoRA 에 대한 개념과 용어 사전 LoRA 에 대한 개념은 필자가 이전에 포스팅한 글을 참고하기 바란다. 링크: [LoRA] 논문 쉽게 설명하기 LoRA 의 요점을 파악하기에 앞서 용어를 먼저 통일하겠다. LoRA_A : {d x r} 차원의 nn.linea.. 2024. 2. 5. 이전 1 2 3 4 5 ··· 8 다음 반응형