DeepSeek Ra Mắt 3FS: Hệ Thống Tệp Nhanh Nhất Trong AI-HPC

DeepSeek AI đã làm cho hệ thống tệp song song Fire-Flyer (3FS) của mình trở thành mã nguồn mở hoàn toàn trong tuần này, như một phần của sự kiện Tuần lễ Mã nguồn Mở. Công ty AI đột phá từ Trung Quốc tự hào rằng 3FS có thể đạt tốc độ đọc tổng hợp 7,3 TB/s trong các cụm máy chủ của mình, nơi DeepSeek đã sử dụng 3FS để tổ chức các máy chủ của mình ít nhất từ năm 2019.

3FS là hệ thống tệp song song dựa trên Linux được thiết kế để sử dụng trong các hoạt động AI-HPC, nơi nhiều máy chủ lưu trữ dữ liệu liên tục được các nút GPU truy cập để huấn luyện các mô hình ngôn ngữ lớn (LLM). 3FS khác biệt so với các hệ thống tệp khác chủ yếu nhờ vào việc ưu tiên tốc độ đọc ngẫu nhiên và gần như hoàn toàn bỏ qua bộ nhớ đệm đọc.

Khi huấn luyện các mô hình AI, các đơn vị tính toán cần truy cập dữ liệu huấn luyện ngẫu nhiên liên tục và việc đọc dữ liệu này chỉ diễn ra một lần. Do đó, bộ đệm đọc gần như không cần dùng tới và phần lớn bị 3FS loại bỏ. Thực tế, việc sử dụng bộ đệm đọc khi huấn luyện LLM có thể gây hại; vì LLM về cơ bản chỉ là các máy suy luận siêu tinh chỉnh, việc đọc cùng một dữ liệu theo cùng một thứ tự lặp đi lặp lại có thể liên kết các dữ liệu hoàn toàn khác nhau như một tập hợp vào mô hình ngôn ngữ.

Nhóm chịu trách nhiệm vận hành một trong những cụm học sâu của DeepSeek, Fire-Flyer 2, đã công bố bài báo này vào tháng 8 năm ngoái, nêu rõ việc sử dụng 3FS trong hệ thống tùy chỉnh. Trong Fire-Flyer 2, DeepSeek đã sử dụng 180 nút lưu trữ, mỗi nút được trang bị 16 SSD 16TB và hai NUC 200Gbps. Những nút này phục vụ 10.000 GPU PCIe Nvidia A100, được xây dựng trong các máy chủ rẻ hơn nhiều so với các sản phẩm DGX-A100 độc quyền của Nvidia.

Trên toàn bộ hệ thống đĩa, DeepSeek tuyên bố đã đo hiệu suất của 3FS ở mức 6,6 TB/s, đồng thời chạy các tác vụ huấn luyện trong nền, bổ sung thêm 1,4 TB/s thông lượng đọc. So sánh, hệ thống tệp đối thủ Ceph chỉ đạt tốc độ đọc 1,1 TB/s (trên một máy chủ với 68 nút, được trang bị 10 SSD 16TB và kết nối với nhau bằng 2 đường mạng 100 Gbps) lần đầu tiên vào đầu năm 2024.

3FS được ghi nhận là một phần quan trọng trong kiến trúc phần mềm của DeepSeek để huấn luyện DeepSeek AI trong bài báo trên, được thử nghiệm trên giải pháp HPC Fire-Flyer 2 đạt 80% hiệu suất đối với giải pháp máy chủ Nvidia DGX-A100 với giá chỉ bằng 50% và 60% công suất tiêu thụ điện năng. Những người tò mò muốn thử Hệ thống Tệp Fire-Flyer và cách đọc ngẫu nhiên của nó cho các giải pháp AI-HPC có thể tìm thấy toàn bộ bản tải xuống trên trang Github của DeepSeek. Chúng tôi sẽ ngạc nhiên nếu hệ thống mã nguồn mở mới này không trở thành một cú hit cho cả những người đam mê và người dùng AI-HPC doanh nghiệp.

Leave a comment