Test Long: Attention With Linear Biases Enables Input Length Extrapolation1 [ALiBi] Train Short, Test Long: Attention With Linear Biases Enables Input Length Extrapolation 본 논문에서는 별도의 모델 재학습 없이 모델을 추론할 때 학습할 때의 Max_Length 보다 더 많은 Input Token 을 처리할 수 있는 방법을 제시했다. 이 방법을 줄여서 ALiBi 라 한다. Fine-Tuning 으로 사용되는 LLM 인 LLAMA-2 와 같은 NLG 모델이 ALiBi 와 같은 구조를 사용한다. 적용 모델: Generation Model (LLM 에 적용되어 사용되고 있음) 논문 링크: https://arxiv.org/pdf/2108.12409.pdf 목차 배경 문제 제기 ALiBi 방법 모델의 구조 결론 참고 문헌 1. 배경 ALiBi 는 Positional Embedding Issue 인 Max Length 를 늘려주면 성능 하락이 발생하는 문제를 해결 기존 Transfor.. 2024. 1. 17. 이전 1 다음 반응형