Serving1 NVIDIA Triton 에 대한 고찰 인공지능 모델을 서빙하기 위해 NVIDIA Triton 를 많이 사용한다. NVIDIA Triton 란 무엇인고, 왜 사용하는지, 어떻게 사용하는지에 대한 간단한 설명과 예시를 다룬다. NVIDIA Triton 란 무엇인가? 인공지능 모델은 딥러닝의 발전으로 점점 커지고 성능도 향상되고 있다. 하지만 그만큼 추론 속도는 느려지고 많은 리소스가 필요하다. 더 좋은 GPU 를 사용하면 효과를 볼 수 있지만 많은 비용이 들기 때문에 어떻게 인공지능 모델을 효율적으로 운영할 수 있는지 연구가 계속 되고 있다. 비용을 줄이기 위한 방법으로는 모델 경량화와 같이 인공지능 모델의 크기를 줄이는 방법부터 효율적인 추론을 위한 ONNX, TensorRT 변환 등 다양한 방법이 있다. ONNX, TensorRT 변환의 경.. 2023. 10. 29. 이전 1 다음 반응형