Máy Tính

DeepSeek R1: Mô Hình AI Gây Chấn Động Thị Trường và Thách Thức OpenAI

deepseek-r1-running-locally

Tuần qua, cái tên DeepSeek R1 đã khuấy động mạnh mẽ thị trường chứng khoán Hoa Kỳ và gây bất ngờ cho cả OpenAI ngay trên sân nhà của họ. Sự ra mắt của mô hình này được cho là đã làm bốc hơi 1 nghìn tỷ USD giá trị vốn hóa trên thị trường, với riêng Nvidia mất 600 tỷ USD. Mặc dù một số công ty đã phục hồi, nhưng rõ ràng DeepSeek đã tạo ra một tác động đáng kể lên các gã khổng lồ về điện toán và AI.

Với những tuyên bố gần như khó tin về chi phí đào tạo mô hình chỉ bằng một phần nhỏ so với OpenAI, cùng với việc bán quyền truy cập API với mức giá cạnh tranh đáng kể, DeepSeek đã làm điều đó như thế nào? Chuyện gì đã xảy ra? Có rất nhiều điều cần phân tích ở đây, đặc biệt là xung quanh các tuyên bố của DeepSeek, những cáo buộc từ đối thủ và việc mô hình R1 được gọi là “mã nguồn mở” liệu có thực sự phản ánh đúng toàn bộ bức tranh.

DeepSeek R1 và DeepSeek V3: Sự Khác Biệt Quan Trọng

Mặc dù chúng có nhiều điểm tương đồng

deepseek-r1-running-locallydeepseek-r1-running-locally

Trước hết, DeepSeek đã phát hành hai mô hình: V3 và R1. Cả hai đều rất quan trọng đối với câu chuyện này, nhưng mọi sự chú ý đều đổ dồn vào R1. DeepSeek R1 là mô hình suy luận (reasoning model) của công ty, có khả năng tự đặt câu hỏi và tự đối thoại trước khi trả lời một lời nhắc, giống như mô hình o1 của OpenAI.

DeepSeek V3 là một mô hình ngôn ngữ lớn (LLM) đa năng thuộc kiến trúc Mixture of Experts (MoE) với 671 tỷ tham số. DeepSeek R1 được xây dựng dựa trên DeepSeek-V3-Base và có sẵn để tải xuống ở các phiên bản tham số nhỏ hơn như 1.5B, 7B, 8B, 14B, 32B và 70B. Các phiên bản này được “chưng cất” từ DeepSeek R1 gốc và dựa trên các mô hình như Qwen và Llama. Ngoài ra, một mô hình DeepSeek R1 671B đầy đủ cũng có sẵn để tải về. Cả R1 và V3 đều là các mô hình tương tự, nhưng khả năng suy luận vượt trội của R1 là điều làm cho nó đặc biệt ấn tượng.

Cách tốt nhất để sử dụng các mô hình R1 và V3 671B của DeepSeek là truy cập trang web của công ty, nơi bạn có thể tạo tài khoản và sử dụng nó tương tự như ChatGPT. Máy chủ của công ty đặt tại Trung Quốc, và một số lời nhắc có thể dẫn đến câu trả lời bị kiểm duyệt. Mô hình DeepSeek R1 671B có thể chạy cục bộ, nhưng theo AWS, nó yêu cầu ít nhất 800GB bộ nhớ HBM ở định dạng FP8 để hoạt động. Đây cũng là lúc tính chất “trọng số mở” của mô hình phát huy tác dụng, khi bạn có thể tùy chỉnh các tham số để loại bỏ kiểm duyệt. Thực tế, đã có một số mô hình không kiểm duyệt được tạo ra bằng một quy trình được gọi là “abliteration”.

Quá trình “chưng cất” (distillation) được đề cập khi nói đến các mô hình tham số nhỏ hơn có thể không quen thuộc với nhiều người. Chưng cất đề cập đến việc sử dụng một mô hình lớn hơn để huấn luyện một mô hình nhỏ hơn, trong đó mô hình lớn là “phụ huynh” và mô hình nhỏ là “con”. Mô hình con sẽ hỏi mô hình phụ huynh một loạt câu hỏi, gắn nhãn các câu trả lời và học hỏi từ các phản hồi đó. Nói cách khác, các mô hình DeepSeek R1 mà bạn có thể chạy cục bộ được dựa trên Qwen và Llama, với hai mô hình này đã học hỏi từ mô hình DeepSeek R1 lớn hơn.

DeepSeek R1 Có “Đánh Cắp” Dữ Liệu Từ OpenAI?

Ngay cả khi có, việc OpenAI phàn nàn cũng rất đạo đức giả

chatgpt explaining how to do a specific workoutchatgpt explaining how to do a specific workout

OpenAI hiện đang đối mặt với nhiều vụ kiện liên quan đến việc thu thập dữ liệu mà công ty đã sử dụng để đào tạo các mô hình của mình. Tờ The Times đã kiện OpenAI, cùng với các hãng tin tức Canada, Intercept Media và ANI ở Ấn Độ. Vô số vụ kiện khác cũng đang diễn ra, tất cả đều cáo buộc ít nhiều điều tương tự: OpenAI đã sử dụng dữ liệu của họ mà không được phép để đào tạo các mô hình GPT.

Hiện tại, không có ai từ OpenAI chính thức đưa ra tuyên bố rằng DeepSeek đã đánh cắp từ họ trên một kênh chính thức. Tuy nhiên, cả BloombergFinancial Times đều đưa tin rằng OpenAI và Microsoft hiện đang điều tra khả năng này. Trước hết, đây là một vấn đề khá mỉa mai. Ngay cả khi DeepSeek có “đánh cắp” từ OpenAI, thật khó để cảm thông cho công ty cảm thấy dữ liệu của mình bị lấy đi một cách “trái phép” khi một phần đáng kể dữ liệu của chính họ cũng được thu thập theo cùng một cách.

Thực tế, OpenAI đã lập luận ủng hộ điều mà họ cáo buộc DeepSeek đã làm. “Việc đào tạo các mô hình AI bằng cách sử dụng các tài liệu công khai trên internet là sử dụng hợp lý, được hỗ trợ bởi các tiền lệ lâu đời và được chấp nhận rộng rãi. Chúng tôi xem nguyên tắc này là công bằng với người sáng tạo, cần thiết cho nhà đổi mới và quan trọng đối với khả năng cạnh tranh của Hoa Kỳ,” OpenAI từng nói trong một bài đăng trên blog.

chatgpt-o1-reasoningchatgpt-o1-reasoning

Tuy nhiên, không rõ DeepSeek có thể đã huấn luyện dựa trên những gì liên quan đến OpenAI. Mô hình suy luận o1 của OpenAI bị che giấu; khi bạn hỏi o1 một câu hỏi, nó không cung cấp cho bạn chuỗi suy nghĩ đầy đủ như R1. Đó chỉ là một bản tóm tắt, và OpenAI cố tình che giấu các hoạt động bên trong thực tế, thậm chí còn làm rõ rằng mọi nỗ lực nhằm khai thác thông tin này sẽ dẫn đến việc tài khoản của bạn bị cấm.

Không chỉ dừng lại ở đó, David Sacks, một nhà đầu tư mạo hiểm và “tổng công trình sư AI và tiền điện tử” của Nhà Trắng, đã tuyên bố rằng có bằng chứng “đáng kể” về sự chưng cất trong R1 từ OpenAI.

“Có một kỹ thuật trong AI được gọi là chưng cất, mà bạn sẽ nghe nói rất nhiều, và đó là khi một mô hình học từ một mô hình khác, về cơ bản điều xảy ra là mô hình học sinh hỏi mô hình phụ huynh rất nhiều câu hỏi, giống như một con người sẽ học, nhưng AI có thể làm điều này bằng cách hỏi hàng triệu câu hỏi, và chúng có thể bắt chước quá trình suy luận mà chúng học được từ mô hình phụ huynh và chúng có thể hút kiến thức của mô hình phụ huynh,” Sacks nói với Fox News. “Có bằng chứng đáng kể rằng những gì DeepSeek đã làm ở đây là họ đã chưng cất kiến thức từ các mô hình của OpenAI và tôi không nghĩ OpenAI rất hài lòng về điều này.”

Như chúng ta đã đề cập, quá trình suy luận này không thể bị chưng cất. Chuỗi suy nghĩ bị che giấu mà mô hình o1 hiển thị cho người dùng không chứa chuỗi suy nghĩ đầy đủ, mà thay vào đó tóm tắt những gì nó “đang nghĩ”. Điều này không đủ thông tin để đào tạo DeepSeek R1, đặc biệt là khi R1 thực sự sánh ngang (và thậm chí vượt trội hơn ở một số thời điểm) nguồn gốc được cho là của quá trình suy luận ở nhiều điểm chuẩn.

Với tất cả những điều đó, chúng ta không biết dữ liệu đào tạo ban đầu đến từ đâu, nhưng đó không thực sự là điều mà các cáo buộc về dữ liệu bị đánh cắp liên quan đến. DeepSeek thực sự đã rất cởi mở về cách khả năng suy luận của R1 ra đời. Trong whitepaper được công bố bởi nhóm nghiên cứu, họ nói rằng các khả năng này xuất hiện thông qua học tăng cường (reinforcement learning) khi xây dựng R1-Zero. Kỹ thuật này tập trung vào “tự tiến hóa” (self-evolution), một kỹ thuật mà bản thân mô hình “học” để đạt được mục tiêu một cách hiệu quả nhất.

“Một hiện tượng đặc biệt hấp dẫn được quan sát trong quá trình đào tạo DeepSeek-R1-Zero là sự xuất hiện của một ‘khoảnh khắc Aha’. Khoảnh khắc này, như minh họa trong Bảng 3, xảy ra ở một phiên bản trung gian của mô hình. Trong giai đoạn này, DeepSeek-R1-Zero học cách dành nhiều thời gian suy nghĩ hơn cho một vấn đề bằng cách đánh giá lại cách tiếp cận ban đầu của nó. Hành vi này không chỉ là minh chứng cho khả năng suy luận ngày càng tăng của mô hình mà còn là một ví dụ hấp dẫn về cách học tăng cường có thể dẫn đến những kết quả bất ngờ và tinh vi.”

Học tăng cường là một kỹ thuật học máy rất phổ biến, và tiến hóa thần kinh (neuroevolution), một phần của mô hình học tăng cường, thậm chí đã được sử dụng để dạy các mô hình cách chơi các trò chơi như Super Mario, dưới dạng MarI/O của SethBling. Đây không phải là một khái niệm mới, nhưng đã phần nào bị bỏ qua khi nói đến các LLM. Rất nhiều LLM sử dụng RLHF (Học tăng cường bằng phản hồi của con người), nhưng RL thuần túy không yêu cầu bất kỳ sự giám sát hoặc phản hồi nào từ con người.

Chi Phí Đào Tạo DeepSeek R1: Sự Thật Đằng Sau Con Số Gây Sốc và Phản Ứng Thị Trường

Đúng và không, nhưng chủ yếu là không

nvidia h100nvidia h100Nvidia H100 // Nguồn: Nvidia

Tuyên bố này có nguồn gốc từ whitepaper của DeepSeek V3, trong đó nói rằng mô hình này tiêu tốn 5,576 triệu USD để đào tạo, tích lũy 2788K giờ GPU Nvidia H800 ước tính 2 USD mỗi giờ. Đây là chi phí của một mô hình, không phải tất cả các lần chạy thử nghiệm khác, không phải tất cả các lần họ xây dựng mô hình và sau đó phải xây dựng lại. Đây là chi phí đầu ra cuối cùng để xây dựng mô hình, không hơn, và chắc chắn đã có đầu tư đáng kể hơn vào dự án này.

Sự bỏ sót này đã dẫn đến những cáo buộc rằng DeepSeek đã nói dối về chi phí của mình, mặc dù whitepaper đã làm rõ rất chi phí đào tạo chỉ dành cho mô hình, không bao gồm bất kỳ chi phí chung nào khác như nghiên cứu và phát triển, các mô hình được đào tạo trong quá trình xây dựng V3 và các chi phí liên quan khác. Đây cũng không phải chi phí của R1, mà là chi phí xây dựng V3. Eryck Banatt đã có một phân tích xuất sắc về chi phí này, khẳng định rằng các con số của DeepSeek là hợp lý và nhiều khía cạnh trong tuyên bố của họ có thể kiểm chứng được ngay từ đầu.

Tuy nhiên, những hiểu lầm cơ bản này (cùng với hiệu quả thực tế của các mô hình mới nhất của DeepSeek) và việc đào tạo trên các GPU cũ hơn đã gây ra sự hỗn loạn trên thị trường. Các GPU H100 của Nvidia, được các ông lớn trong lĩnh vực AI như Google, Meta và OpenAI mua với số lượng hàng trăm nghìn, là những GPU mạnh nhất hiện có và trước đây được coi là cần thiết trong việc phát triển công nghệ tiên tiến.

Mặc dù vậy, DeepSeek đã đạt được tất cả những điều này trên một loạt GPU H800, loại GPU giảm tốc độ truyền giữa các chip khoảng một nửa và đã tuân thủ các quy định xuất khẩu trong một thời gian ngắn trước khi một lỗ hổng mà Nvidia được cho là đã khai thác bị đóng lại. Điều này đặt ra câu hỏi về tầm quan trọng thực sự của công nghệ Nvidia mới nhất đối với AI, nếu các GPU chậm hơn vẫn có thể cạnh tranh với kết quả từ việc sử dụng những sản phẩm tốt nhất.

Và còn một điều nữa; các cáo buộc đã nổi lên rằng DeepSeek đã lách các biện pháp kiểm soát xuất khẩu và có được GPU H100. CEO Scale AI Alexandr Wang đã tuyên bố rằng DeepSeek có khoảng 50.000 GPU này và đã tránh nói về chúng vì điều đó sẽ chứng minh họ đã vi phạm các biện pháp kiểm soát xuất khẩu đó. Rất có thể Wang đã hiểu nhầm một tweet từ Dylan Patel, trong đó nói rằng DeepSeek có hơn 50.000 GPU Hopper. GPU H800 vẫn là GPU Hopper, vì chúng là các phiên bản sửa đổi của H100 được tạo ra để tuân thủ các biện pháp kiểm soát xuất khẩu của Hoa Kỳ.

Tất cả những điều này đã khiến Nvidia phải đưa ra một tuyên bố, nói rằng họ mong đợi tất cả các đối tác tuân thủ các quy định và sẽ hành động thích đáng nếu phát hiện họ không tuân thủ. Nvidia cũng “đã tuyên bố rằng không có lý do gì để tin rằng DeepSeek đã có được bất kỳ sản phẩm nào thuộc diện kiểm soát xuất khẩu từ Singapore,” theo Bộ Thương mại và Công nghiệp Singapore.

aran-komatsuzaki-training-cost-aiaran-komatsuzaki-training-cost-aiNguồn: Aran Komatsuzaki

Mặc dù vậy, chi phí này vẫn cực kỳ thấp. Aran Komatsuzaki, một nhà nghiên cứu AI, ước tính rằng chi phí đào tạo GPT-4o và GPT-o1 là khoảng 15 triệu USD mỗi mô hình, gấp ba lần chi phí của mô hình V3 của DeepSeek. Điều này phần nào được thực hiện nhờ tối ưu hóa, vì DeepSeek đã đạt được một số tiến bộ trong lĩnh vực này. Điều đó bao gồm việc sử dụng PTX, một ngôn ngữ cấp thấp dành cho GPU Nvidia cho phép các nhà nghiên cứu thực hiện những việc như sử dụng một số GPU H800 để quản lý truyền thông giữa các chip.

DeepSeek: Lợi Ích Lớn Cho Cộng Đồng AI, Bất Chấp Lo Ngại Từ Đối Thủ

Ngay cả khi nó khiến các đối thủ hoảng loạn

deepseek_r1_example_endeepseek_r1_example_enNguồn: DeepSeek

Bất chấp những gợi ý rằng Meta đã thiết lập “phòng chiến tranh” và OpenAI có thể đang xem xét hành động chống lại DeepSeek, đây là một chiến thắng lớn cho cộng đồng AI. Sự tiến bộ giúp ích cho tất cả mọi người, và tính chất cởi mở trong nghiên cứu của DeepSeek sẽ cho phép các đối thủ cạnh tranh sử dụng một số kỹ thuật đó để cải thiện mô hình của riêng họ. Trở lại khi tôi đề cập rằng DeepSeek là “trọng số mở” (open weights) chứ không phải “mã nguồn mở” (open source), lý do là mã nguồn mở sẽ yêu cầu cả dữ liệu gốc mà nó được đào tạo.

Ngược lại, trọng số mở có nghĩa là chúng ta có các tham số và giá trị số xác định cách mô hình hoạt động. Điều đó, cùng với các bài báo nghiên cứu, là quá đủ để bắt đầu xây dựng một mô hình sao chép R1. Thực tế, đã có người đang làm việc để xây dựng phiên bản R1 của riêng họ trong một dự án có tên “Open R1“, sử dụng tất cả thông tin được DeepSeek công bố để triển khai nó. Dự án chưa hoàn thành, nhưng có một lộ trình và dàn ý rất rõ ràng để theo dõi nếu bạn muốn tự mình thực hiện.

Nếu một người bình thường như bạn hoặc tôi có thể đọc bài báo và hiểu những điều cơ bản đang diễn ra, thì bạn biết rằng các nhà nghiên cứu tại các công ty như Google, Meta và OpenAI chắc chắn có thể làm được. Điều này sẽ cải thiện các mô hình trên diện rộng, giảm tiêu thụ điện năng, chi phí và dân chủ hóa AI hơn nữa. CEO OpenAI Sam Altman đã nói rằng các mô hình suy luận của OpenAI giờ đây sẽ chia sẻ nhiều chuỗi suy nghĩ hơn, cảm ơn R1 trong phản hồi của mình.

Bạn có thể chạy một phiên bản chưng cất của DeepSeek R1 trong LM Studio vào lúc này, và tôi đã chạy mô hình Qwen 32B được chưng cất từ DeepSeek R1 trên MacBook Pro của tôi với chip M4 Pro SoC bằng LM Studio.


DeepSeek R1 đã chứng tỏ là một mô hình AI mang tính cách mạng, không chỉ về khả năng suy luận vượt trội mà còn về hiệu quả chi phí đáng kinh ngạc. Mặc dù sự ra mắt của nó đã gây ra không ít tranh cãi và làm xáo trộn thị trường công nghệ, nhưng những tiến bộ mà DeepSeek mang lại, đặc biệt là tính chất “trọng số mở” của nó, là một lợi ích to lớn cho toàn bộ cộng đồng AI. Nó không chỉ thúc đẩy sự đổi mới, giảm rào cản về chi phí và tài nguyên, mà còn tạo tiền đề cho một tương lai AI dân chủ hơn và dễ tiếp cận hơn.

Bạn nghĩ sao về tác động của DeepSeek R1 đối với ngành AI và cuộc cạnh tranh giữa các ông lớn công nghệ? Hãy chia sẻ ý kiến của bạn trong phần bình luận bên dưới và đừng quên theo dõi blogcongnghe.net để cập nhật những tin tức và phân tích chuyên sâu mới nhất về thế giới công nghệ AI!

Related posts

Microsoft Teams Sắp Khôi Phục Tính Năng “Lưu Tin Nhắn” Được Yêu Cầu Cao

Administrator

Tăng Tốc Mở Ứng Dụng: Hướng Dẫn Tạo Phím Tắt Trên Windows Hiệu Quả

Administrator

Tiết kiệm tiền: 5 ứng dụng miễn phí và mã nguồn mở thay thế tốt nhất bạn nên dùng

Administrator