Thời điểm then chốt trong ngành công nghiệp AI
DeepSeek lên kế hoạch đẩy nhanh việc phát hành mô hình R2, ban đầu dự kiến vào tháng 5, nhằm mục đích cải thiện khả năng mã hóa và suy luận đa ngôn ngữ. Lịch trình cập nhật này chưa được tiết lộ trước đó.

Việc ra mắt mô hình R2 của DeepSeek có thể là một thời điểm then chốt trong ngành công nghiệp AI.
Các đối thủ vẫn đang tiếp thu những hàm ý của R1, mô hình được xây dựng bằng chip Nvidia kém hơn nhưng cạnh tranh với những mô hình được phát triển với chi phí hàng trăm tỷ USD bởi các gã khổng lồ công nghệ Hoa Kỳ.
"Việc ra mắt mô hình R2 của DeepSeek có thể là một thời điểm then chốt trong ngành công nghiệp AI. Thành công của DeepSeek trong việc tạo ra các mô hình AI hiệu quả về chi phí có khả năng thúc đẩy các công ty trên toàn thế giới tăng tốc nỗ lực của riêng họ... phá vỡ sự kìm kẹp của một vài người chơi thống trị trong lĩnh vực này", ông Vijayasimha Alilughatta - Giám đốc vận hành của nhà cung cấp dịch vụ công nghệ Ấn Độ Zensar cho biết.
Việc phát hành mô hình R2 của DeepSeek có khả năng gây lo ngại cho chính phủ Hoa Kỳ, vì nó có thể củng cố vị thế dẫn đầu về AI của Trung Quốc. Công ty, được thành lập bởi tỷ phú Liang Wenfeng (Lương Văn Phong) của quỹ đầu tư mạo hiểm High-Flyer, đã âm thầm đạt được thành tựu, với nhiều doanh nghiệp Trung Quốc tích hợp các mô hình DeepSeek. Ông Lương, người nổi tiếng về sự kín đáo, đã không phát biểu với giới truyền thông kể từ tháng 7/2024.
Theo nghiên cứu của Reuters, các tài liệu của DeepSeek kể câu chuyện về một công ty hoạt động giống như một phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp vì lợi nhuận và không bị ràng buộc bởi các truyền thống phân cấp của ngành công nghệ áp lực cao của Trung Quốc, ngay cả khi nó chịu trách nhiệm về những gì nhiều nhà đầu tư coi là bước đột phá mới nhất trong AI.
Sức mạnh tính toán
Thành công của DeepSeek với mô hình AI chi phí thấp được xây dựng dựa trên khoản đầu tư kéo dài một thập kỷ của High-Flyer vào nghiên cứu AI và sức mạnh tính toán.

Mô hình AI giá rẻ giúp DeepSeek cạnh tranh với những người khổng lồ công nghệ của Mỹ.
High-Flyer, một công ty tiên phong trong lĩnh vực giao dịch AI, đã tái đầu tư 70% doanh thu vào nghiên cứu AI, chi 1,2 tỷ nhân dân tệ cho hai cụm AI siêu máy tính trong giai đoạn 2020-2021, bao gồm Fire-Flyer II với 10.000 chip Nvidia A100.
Khoản đầu tư đáng kể này, được thực hiện trước khi DeepSeek được thành lập, đã thu hút sự chú ý của các cơ quan quản lý chứng khoán Trung Quốc. "Các cơ quan quản lý muốn biết tại sao họ cần quá nhiều chip? Họ sẽ sử dụng nó như thế nào? Loại tác động nào sẽ có đối với thị trường?", một người thắc mắc về hoạt động của High-Flyer.
Chính quyền Trung Quốc đã chọn không can thiệp khi cụm AI Fire-Flyer II của High-Flyer, được trang bị chip Nvidia A100, hoạt động trước lúc Mỹ cấm xuất khẩu A100 sang Trung Quốc vào năm 2022.
DeepSeek hiện đang nhận được sự hỗ trợ từ Bắc Kinh nhưng đã được chỉ thị không được tiếp xúc với giới truyền thông nếu không được chấp thuận. Các nhà chức trách lo ngại rằng việc công khai quá nhiều có thể thu hút sự chú ý không mong muốn.
Với cụm A100 lớn, High-Flyer và DeepSeek đã thu hút được những tài năng nghiên cứu hàng đầu tại Trung Quốc.
Kiến trúc AI tiết kiệm chi phí
Một số doanh nhân AI phương Tây, như Giám đốc điều hành Scale AI Alexandr Wang, đã tuyên bố rằng DeepSeek có tới 50.000 chip Nvidia cao cấp bị cấm xuất khẩu sang Trung Quốc. Ông đã không đưa ra bằng chứng cho cáo buộc này hoặc trả lời các yêu cầu của Reuters để cung cấp bằng chứng.

Ông Lương Văn Phong (phải) trong cuộc họp với các nhà lãnh đạo hàng đầu Trung Quốc.
Hai cựu nhân viên cho rằng thành công của công ty là do sự tập trung của ông Lương vào kiến trúc AI hiệu quả về chi phí hơn.
DeepSeek đã sử dụng các kỹ thuật hiệu quả về chi phí như Mixture-of-Experts (MoE) và multihead latent attention (MLA) để đạt được hiệu suất mô hình AI với chi phí chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh.
MoE chỉ kích hoạt các khu vực liên quan của mô hình, trong khi MLA xử lý nhiều khía cạnh thông tin cùng một lúc. Các mô hình của DeepSeek rẻ hơn từ 20 đến 40 lần so với các mô hình tương đương của OpenAI, thúc đẩy các đối thủ như OpenAI và Google giảm giá và điều chỉnh chiến lược. Thành công của DeepSeek với các mô hình R1 và V3 đã ảnh hưởng đến sự thay đổi giá cả trong ngành công nghiệp AI.
Adnan Masood của nhà cung cấp dịch vụ công nghệ Hoa Kỳ, UST, nói rằng phòng thí nghiệm của ông đã chạy các điểm chuẩn và phát hiện ra rằng R1 thường sử dụng số lượng token (đơn vị dữ liệu được xử lý bởi mô hình AI) gấp ba lần để suy luận so với mô hình thu nhỏ của OpenAI.
Sự hỗ trợ từ nhà nước
Trước khi R1 thu hút sự chú ý toàn cầu, DeepSeek đã nhận được sự ủng hộ từ Bắc Kinh. Vào tháng 1, ông Lương đã gặp Thủ tướng Trung Quốc Lý Cường với tư cách là đại diện lĩnh vực AI, trước các lãnh đạo từ các công ty nổi tiếng.

Ông Lưu Văn Phong được gặp Chủ tịch Trung Quốc, Tập Cận Bình (phải).
Thành công của các mô hình hiệu quả về chi phí của DeepSeek đã củng cố niềm tin của Bắc Kinh vào khả năng vượt trội về đổi mới so với Hoa Kỳ của Trung Quốc, với việc các công ty và cơ quan chính phủ Trung Quốc nhanh chóng áp dụng các mô hình của DeepSeek.
Ít nhất 13 chính quyền thành phố Trung Quốc và 10 công ty năng lượng thuộc sở hữu nhà nước cho biết họ đã triển khai DeepSeek vào hệ thống, trong khi các gã khổng lồ công nghệ Lenovo, Baidu và Tencent - chủ sở hữu ứng dụng truyền thông xã hội lớn nhất Trung Quốc WeChat - đã tích hợp các mô hình của DeepSeek vào sản phẩm.
"Lãnh đạo Trung Quốc Tập Cận Bình và Lý Cường đã phát tín hiệu ủng hộ DeepSeek. Bây giờ mọi người đều ủng hộ ứng dụng này", Alfred Wu, một chuyên gia về hoạch định chính sách Trung Quốc tại Trường Chính sách Công Lý Quang Diệu của Singapore nói.
Sự đón nhận của Trung Quốc diễn ra khi các chính phủ từ Hàn Quốc đến Italia gỡ bỏ DeepSeek khỏi các cửa hàng ứng dụng quốc gia, với lý do lo ngại về quyền riêng tư.
"Nếu DeepSeek trở thành mô hình AI được sử dụng rộng rãi trên khắp các thực thể nhà nước Trung Quốc, các cơ quan quản lý phương Tây có thể coi đây là một lý do khác để leo thang các hạn chế đối với chip AI hoặc hợp tác phần mềm", một chuyên gia AI và người sáng lập quỹ đầu tư mạo hiểm Carthage Capital, Stephen Wu nhận định.
Các hạn chế hơn nữa đối với chip AI tiên tiến là một thách thức mà ông Lương đã thừa nhận: "Vấn đề của chúng tôi chưa bao giờ là tài chính, mà là lệnh cấm vận đối với chip cao cấp", ông Lương nói với Waves vào hồi tháng 7/2014.
Bình luận bài viết (0)
Gửi bình luận