Tối ưu hóa các mô hình học sâu với TensorRT để suy luận nhanh hơn, hiệu quả hơn trên GPU NVIDIA. Đạt được hiệu suất thời gian thực với các ứng dụng YOLO và AI.
TensorRT là trình tối ưu hóa suy luận Deep Learning (DL) hiệu suất cao và thư viện thời gian chạy do NVIDIA phát triển. Nó được thiết kế đặc biệt để tối đa hóa thông lượng suy luận và giảm thiểu độ trễ suy luận cho các ứng dụng học sâu chạy trên GPU NVIDIA . TensorRT lấy các mô hình mạng nơ-ron đã được đào tạo từ nhiều khuôn khổ khác nhau và áp dụng nhiều tối ưu hóa để tạo ra một công cụ thời gian chạy được tối ưu hóa cao để triển khai. Quá trình này rất quan trọng để triển khai các mô hình hiệu quả trong môi trường sản xuất, đặc biệt là khi tốc độ và khả năng phản hồi là yếu tố quan trọng.
TensorRT đạt được những cải tiến hiệu suất đáng kể thông qua một số kỹ thuật tinh vi:
Quy trình làm việc thường bao gồm việc lấy một mô hình đã được đào tạo (ví dụ, từ PyTorch hoặc TensorFlow , thường thông qua một định dạng trung gian như ONNX ) và đưa nó vào trình tối ưu hóa TensorRT. TensorRT phân tích mô hình, thực hiện tối ưu hóa đồ thị và tối ưu hóa mục tiêu cụ thể dựa trên độ chính xác đã chỉ định và GPU mục tiêu, và cuối cùng tạo ra một kế hoạch suy luận được tối ưu hóa, được gọi là công cụ TensorRT. Tệp công cụ này sau đó có thể được triển khai để suy luận nhanh.
TensorRT có liên quan cao đến giai đoạn triển khai mô hình của vòng đời học máy . Khả năng tăng tốc đáng kể quá trình suy luận của nó khiến nó trở nên không thể thiếu đối với các ứng dụng yêu cầu suy luận thời gian thực , chẳng hạn như phát hiện đối tượng bằng các mô hình như Ultralytics YOLO , phân đoạn hình ảnh và xử lý ngôn ngữ tự nhiên. Nó là một thành phần quan trọng trong ngăn xếp phần mềm NVIDIA, cùng với các công cụ như CUDA , cho phép các nhà phát triển tận dụng toàn bộ tiềm năng của phần cứng NVIDIA, từ GPU trung tâm dữ liệu mạnh mẽ đến các mô-đun NVIDIA Jetson tiết kiệm năng lượng cho Edge AI . Ultralytics cung cấp khả năng tích hợp liền mạch, cho phép người dùng xuất các mô hình YOLO sang định dạng TensorRT để triển khai được tối ưu hóa, thường được sử dụng với các nền tảng như Triton Inference Server .
TensorRT được sử dụng rộng rãi trong nhiều ngành công nghiệp khác nhau, nơi cần suy luận AI nhanh chóng và hiệu quả:
Trong khi TensorRT tập trung vào việc tối ưu hóa suy luận dành riêng cho GPU NVIDIA, hệ sinh thái này còn có các công cụ khác:
Điểm khác biệt chính của TensorRT là khả năng tích hợp sâu với phần cứng NVIDIA và các chiến lược tối ưu hóa mạnh mẽ dành riêng cho GPU, thường mang lại điểm chuẩn hiệu suất cao nhất (xem MLPerf Benchmarks ) trên nền tảng NVIDIA so với các thời gian chạy thông dụng hơn. Quản lý mô hình và triển khai có thể được sắp xếp hợp lý bằng các nền tảng như Ultralytics HUB .