nvidia va google ket hop toi uu hoa gemma tren moi nen tang ai tang toc do va giam chi phi 1

NVIDIA và Google ra mắt Gemma: Tối ưu hóa AI mọi nền tảng

Hôm 21/02/2024, NVIDIA đã phối hợp cùng Google để ra mắt các tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma – những mô hình ngôn ngữ mới nhất với 2 tỷ và 7 tỷ tham số, có thể chạy trên bất kỳ nơi nào, giúp giảm chi phí và tăng tốc độ làm việc sáng tạo cho các trường hợp sử dụng cụ thể.

nvidia va google ket hop toi uu hoa gemma tren moi nen tang ai tang toc do va giam chi phi 1

Các nhóm từ hai công ty đã cùng nhau làm việc chặt chẽ để tăng tốc hiệu suất của Gemma – được xây dựng từ cùng nghiên cứu và công nghệ được sử dụng để tạo ra các mô hình Gemini – với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa việc suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA trong trung tâm dữ liệu, trên đám mây và cục bộ trên các máy trạm với GPU NVIDIA RTX hoặc PC với GPU GeForce RTX.

nvidia va google ket hop toi uu hoa gemma tren moi nen tang ai tang toc do va giam chi phi 2

Điều này cho phép các nhà phát triển nhắm vào cơ sở cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên các máy tính AI hiệu suất cao trên toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trên đám mây, bao gồm các phiên bản A3 của Google Cloud dựa trên GPU Tensor Core H100 và sắp tới là GPU Tensor Core H200 của NVIDIA – với 141 GB bộ nhớ HBM3e tại 4.8 terabytes mỗi giây – mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp cũng có thể tận dụng hệ sinh thái công cụ phong phú của NVIDIA – bao gồm NVIDIA AI Enterprise với framework NeMo và TensorRT-LLM – để điều chỉnh tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM đang tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số điểm kiểm tra mô hình của Gemma và phiên bản được định dạng FP8 của mô hình, tất cả được tối ưu hóa với TensorRT-LLM.

Trải nghiệm Gemma 2B và Gemma 7B trực tiếp từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Coming to Chat With RTX

Sắp tới, chúng tôi sẽ bổ sung hỗ trợ cho Gemma vào Chat với RTX, một demo công nghệ của NVIDIA sử dụng kỹ thuật tăng cường truy xuất và phần mềm TensorRT-LLM để cung cấp khả năng tạo ra AI đa dạng cho người dùng trên các máy tính Windows được trang bị RTX.

nvidia va google ket hop toi uu hoa gemma tren moi nen tang ai tang toc do va giam chi phi 3

Chat với RTX cho phép người dùng cá nhân hóa chatbot của mình bằng cách dễ dàng kết nối các tập tin cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy trên thiết bị cục bộ, nó cung cấp kết quả nhanh chóng và dữ liệu người dùng được lưu trữ trên thiết bị. Thay vì phải dựa vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cục bộ mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

Bài viết gốc: https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/

Similar Posts

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *