NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT로 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.
TensorRT는 NVIDIA에서 개발한 고성능 딥 러닝(DL) 추론 최적화 및 런타임 라이브러리입니다. NVIDIA GPU에서 실행되는 딥 러닝 애플리케이션의 추론 처리량을 극대화하고 추론 지연 시간을 최소화하도록 특별히 설계되었습니다. TensorRT는 다양한 프레임워크에서 훈련된 신경망 모델을 가져와 수많은 최적화를 적용하여 배포를 위한 고도로 최적화된 런타임 엔진을 생성합니다. 이 프로세스는 특히 속도와 응답성이 중요한 프로덕션 환경에서 모델을 효율적으로 배포하는 데 매우 중요합니다.
TensorRT는 몇 가지 정교한 기술을 통해 상당한 성능 향상을 달성합니다:
워크플로에는 일반적으로 학습된 모델(예: PyTorch 또는 TensorFlow에서, 종종 ONNX와 같은 중간 형식을 통해)을 가져와 TensorRT 최적화 도구에 공급하는 것이 포함됩니다. TensorRT는 모델을 구문 분석하고, 지정된 정밀도와 대상 GPU에 따라 그래프 최적화 및 대상별 최적화를 수행한 다음, 최종적으로 최적화된 추론 계획, 즉 TensorRT 엔진을 생성합니다. 그런 다음 이 엔진 파일을 배포하여 빠른 추론을 수행할 수 있습니다.
TensorRT는 머신 러닝 라이프사이클의 모델 배포 단계와 매우 관련이 깊습니다. 추론을 크게 가속화하는 기능 덕분에 Ultralytics YOLO와 같은 모델을 사용한 객체 감지, 이미지 세분화, 자연어 처리 등 실시간 추론이 필요한 애플리케이션에 없어서는 안 될 필수 요소입니다. CUDA와 같은 도구와 함께 NVIDIA 소프트웨어 스택의 핵심 구성 요소로, 개발자가 강력한 데이터센터 GPU부터 에너지 효율적인 엣지 AI용 NVIDIA Jetson 모듈까지 NVIDIA 하드웨어의 잠재력을 최대한 활용할 수 있도록 해줍니다. Ultralytics는 원활한 통합을 제공하여 사용자가 YOLO 모델을 TensorRT 형식으로 내보내 최적화된 배포를 할 수 있도록 지원하며, 종종 Triton 추론 서버와 같은 플랫폼에서 사용됩니다.
TensorRT는 빠르고 효율적인 AI 추론이 필요한 다양한 산업 분야에서 널리 사용되고 있습니다:
TensorRT는 특히 NVIDIA GPU를 위한 추론 최적화에 초점을 맞추고 있지만, 에코시스템에는 다른 도구도 존재합니다:
TensorRT의 주요 차별화 요소는 NVIDIA 하드웨어와의 긴밀한 통합과 GPU에 맞춘 공격적인 최적화 전략으로, 범용 런타임에 비해 NVIDIA 플랫폼에서 가장 높은 성능 벤치마크( MLPerf 벤치마크 참조)를 달성하는 경우가 많다는 점입니다. 모델 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.