DeepSeek thích thuê những sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, phù hợp với ưu tiên của công ty về khả năng hơn là kinh nghiệm.
DeepSeek, công ty khởi nghiệp về trí tuệ nhân tạo (AI) của Trung Quốc đã khiến cả thế giới công nghệ phải ngạc nhiên với mô hình AI mạnh mẽ được phát triển với chi phí thấp, đang đặt cược vào vũ khí bí mật gồm những “thiên tài trẻ” của mình để đối đầu với những gã khổng lồ giàu có của Mỹ, theo cho người trong cuộc và báo cáo của phương tiện truyền thông Trung Quốc.
Vào ngày 26/12/2024, công ty có trụ sở tại Hàng Châu đã phát hành mô hình ngôn ngữ lớn (LLM) DeepSeek V3, được đào tạo bằng cách sử dụng ít tài nguyên hơn nhưng vẫn sánh ngang hoặc thậm chí vượt trội trong một số lĩnh vực nhất định so với hiệu suất của các mô hình AI từ các đối thủ lớn hơn ở Mỹ như ChatGPT của OpenAI.
Bước đột phá này được coi là có ý nghĩa quan trọng vì nó có thể mở đường cho Trung Quốc vượt qua Mỹ về năng lực AI mặc dù khả năng tiếp cận chip tiên tiến và nguồn tài trợ của nước này bị hạn chế.
Đằng sau sự đột phá của nó là người sáng lập khiêm tốn của công ty và một nhóm nghiên cứu còn non trẻ, theo các hãng truyền thông Trung Quốc. Báo cáo kỹ thuật về mô hình V3 được thực hiện bởi một nhóm gồm 150 nhà nghiên cứu và kỹ sư Trung Quốc, bên cạnh một nhóm gồm 31 nhà nghiên cứu tự động hóa dữ liệu.
Công ty khởi nghiệp này được thành lập vào năm 2023 bởi hãng quản lý quỹ phòng hộ High Flyer-Quant. Doanh nhân đằng sau DeepSeek là người sáng lập High-Flyer Quant, Liang Wenfeng, người đã nghiên cứu AI tại Đại học Chiết Giang. Tên của Liang cũng có trong báo cáo kỹ thuật.
Trong một cuộc phỏng vấn với hãng truyền thông trực tuyến 36Kr của Trung Quốc vào tháng 5/2023, Liang cho biết hầu hết các nhà phát triển tại DeepSeek đều là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, do công ty ưu tiên khả năng hơn kinh nghiệm trong việc tuyển dụng nhân viên mới.
Liang cho biết: “Các vị trí kỹ thuật cốt lõi của chúng tôi chủ yếu là sinh viên mới tốt nghiệp hoặc những người có một hoặc hai năm kinh nghiệm làm việc”.
Trong số những tài năng đa dạng của DeepSeek, Gao Huazuo và Zeng Wangding được công ty đánh giá là đã thực hiện “những đổi mới quan trọng trong nghiên cứu kiến trúc MLA”.
Gao tốt nghiệp Đại học Bắc Kinh năm 2017 với bằng vật lý, trong khi Zeng bắt đầu học thạc sĩ tại Viện AI tại Đại học Bưu chính Viễn thông Bắc Kinh vào năm 2021. Cả hai hồ sơ này đều cho thấy cách tiếp cận nhân tài khác biệt của DeepSeek, không giống như hầu hết các công ty khởi nghiệp AI Trung Quốc vốn thích thuê các nhà nghiên cứu có kinh nghiệm và thành danh.
Các thành viên chủ chốt khác của nhóm bao gồm Guo Daya, sinh viên tốt nghiệp tiến sĩ năm 2023 tại Đại học Sun Yat-sen, Zhu Qihao và Dai Damai, cả hai đều là sinh viên mới tốt nghiệp tiến sĩ tại Đại học Bắc Kinh.
Tuy nhiên, một trong những tài năng nổi tiếng nhất của DeepSeek là một cựu nhân viên tên Luo Fuli. Cô trở thành tâm điểm chú ý của cả nước sau khi người sáng lập Xiaomi Lei Jun được cho là đã đề mức lương hàng năm 10 triệu NDT (1,4 triệu USD) cho cô, nhưng các báo cáo truyền thông gần đây cho thấy Luo vẫn chưa chấp nhận lời đề nghị. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo được truyền thông Trung Quốc mệnh danh là “thần đồng AI”.
Mô hình V3 của DeepSeek được đào tạo trong 2 tháng bằng cách sử dụng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn với giá chỉ 6 triệu USD – một “trò đùa về ngân sách”, theo nhận định của Andrej Karpathy, thành viên nhóm sáng lập tại OpenAI – nhờ sự kết hợp của các kiến trúc đào tạo và các kỹ thuật mới.
T.P