llm 평가1 RAGAS+LangSmith 로 LLM 생성 데이터 평가하기 LLM 을 통해 생성된 답변의 성능을 평가하는건 어려운 Task 이다.현재 평가 방법으로는 성능이 좋은 LLM 모델을 통해 평가하는 방법(LLM-as-a-judge, Pheonix, RAGAS, DeepEval)은 많지만 해당 평가 방법을 프로젝트에 적용시키기는 쉽지 않다.본 포스팅은 프로젝트에 가장 많이 활용되는 RAG Process 의 생성 답변 성능을 RAGAS 로 평가하는 과정과 그 결과에 대해 다루도록 한다.RAGAS 의 성능 근거를 확인하기 위해 LangSmith 를 통해 Log 를 확인한 결과도 다루겠다.※ sLLM 에 대한 연구를 하는 사람에게 도움이 되는 글임을 유의하길 바란다. 목차1. 사용 결과 피드백2. 환경 설정3. 평가할 데이터 Load4. 모델 평가5. 성능 평가 근거 확인 .. 2024. 9. 5. 이전 1 다음 반응형