Nguồn: TokenPost
Tiêu đề gốc: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
Liên kết gốc: https://www.tokenpost.kr/news/ai/320188
DeepSeek( của tổ chức nghiên cứu AI Trung Quốc DeepSeek) đã công bố một kiến trúc mới có thể nâng cao đáng kể hiệu suất học tập trí tuệ nhân tạo thế hệ tiếp theo. Được đặt tên là ‘mHC(Manifold-Constrained Hyper-Connections)’, công nghệ này vượt qua phương pháp ‘kết nối dư(residual connection)’ cần thiết trong các mô hình ngôn ngữ lớn(LLM) và mô hình nhận thức thị giác, nâng cao độ chính xác học tập cũng như hiệu quả phần cứng, nhận được đánh giá tích cực.
mHC là phương pháp cải tiến từ công nghệ ‘siêu kết nối(Hyper-Connections)’ truyền thống. Siêu kết nối giúp truyền tải thông tin giữa các lớp(layer) của mô hình học sâu một cách hiệu quả hơn, nhưng trong thực tế vận hành lại bị hạn chế bởi nhiều giới hạn kỹ thuật. DeepSeek đã vượt qua giới hạn này bằng cách kết hợp khái niệm ‘mạng đa chiều(manifold)’. Mạng đa chiều là không gian có cấu trúc nhiều lớp về mặt toán học, từ hình tròn đơn giản đến các cấu trúc phức tạp vượt quá 3 chiều. DeepSeek giải thích rằng mHC sử dụng cấu trúc dựa trên mạng đa chiều này để đảm bảo tính ổn định và nhất quán của tín hiệu đạo hàm(tín hiệu lan truyền ngược lỗi) trong quá trình huấn luyện mô hình.
Để kiểm chứng hiệu suất của kiến trúc này, DeepSeek đã huấn luyện ba loại LLM có số tham số lần lượt là 3 tỷ, 9 tỷ và 27 tỷ theo cấu trúc mHC, và so sánh với các mô hình cùng cấu hình dựa trên siêu kết nối. Kết quả cho thấy các mô hình mHC đạt hiệu suất vượt trội trên tổng cộng 8 tiêu chuẩn đánh giá. Đặc biệt, về mặt yêu cầu bộ nhớ, mô hình này cho phép huấn luyện hiệu quả hơn so với cấu trúc cũ, đồng thời chi phí phần cứng trong quá trình huấn luyện chỉ chiếm khoảng 6.27%.
Các nhà nghiên cứu của DeepSeek nhấn mạnh: “Hiểu sâu hơn về mối quan hệ giữa cấu trúc hình học của mạng đa chiều và thuật toán tối ưu sẽ giúp mHC vượt qua giới hạn hiện tại của các mô hình AI và mở ra con đường mới cho thiết kế hạ tầng dựa trên nền tảng này.”
Thông báo này thu hút sự chú ý vì xuất hiện trong bối cảnh toàn cầu đang xem xét lại các kiến trúc học tập AI gần đây. Phương pháp kết nối dư từ năm 2015 đã được sử dụng rộng rãi trong các mô hình LLM và phân loại hình ảnh. Cấu trúc này truyền tín hiệu lỗi từ lớp cuối cùng ngược trở lại các lớp trước để truyền tải thông tin huấn luyện, đồng thời giúp giảm thiểu hiện tượng biến dạng thông tin xảy ra trong quá trình này.
Tuy nhiên, khi các mô hình AI ngày càng trở nên siêu lớn, giới hạn của kết nối dư đã lộ rõ, và nhiều nỗ lực cải tiến đã được thực hiện. mHC của DeepSeek là công nghệ mới nhất trong bối cảnh này, được dự đoán sẽ góp phần trực tiếp nâng cao hiệu quả huấn luyện mô hình, nền tảng của toàn bộ ngành công nghiệp AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
8
Đăng lại
Retweed
Bình luận
0/400
PretendingToReadDocs
· 3giờ trước
Ồ, lại là những sáng tạo mới của DeepSeek, mHC nghe có vẻ sắp làm gì đó thay đổi rồi?
---
잔차连接都能超越?这技术靠谱不靠谱啊,光看名字有点懵
---
Trung Quốc AI lại còn ra cấu trúc mới, bên này chúng ta còn đang bận rộn với lượng tham số ha ha
---
LLM và mô hình thị giác đều có thể nâng cao? Cảm giác như đang phóng đại quá mức rồi
---
Chữ viết tắt mHC này sao nghe không mượt, nhớ cũng khó nhớ nữa
---
DeepSeek liên tiếp ra các bài báo, cũng không rõ hiệu quả thực tế thế nào
---
Lại là manifold rồi hyper, đám này thích toàn dùng những từ cao siêu như vậy
Xem bản gốcTrả lời0
CryptoHistoryClass
· 6giờ trước
ngl, đã thấy biểu đồ này trước đây... các kết nối dư dự kiến là kiến trúc cuối cùng vào năm 2017. bây giờ chúng đang "vượt qua" nó? *kiểm tra biểu đồ hiệu suất lịch sử* ...đúng vậy, chúng ta chắc chắn đang ở giai đoạn "bước đột phá cách mạng" của chu kỳ một lần nữa. cho nó 18 tháng
Xem bản gốcTrả lời0
LiquidationWatcher
· 6giờ trước
ngl deepseek đang tung ra kiến trúc AI mới trong khi tất cả chúng ta đều đang lo lắng về vị trí của mình... nhớ khi mọi người đều nghĩ rằng kết nối dư là chiến lược cuối cùng? dù sao thì chuyện này nghe có vẻ hợp lý nhưng tôi không biết, mỗi lần Trung Quốc công bố đột phá nào đó là tôi lại bị PTSD thanh lý kích hoạt. đã xem quá nhiều các dự án công nghệ "cách mạng" bị frontrun đến mức biến mất vào năm 2022.
Xem bản gốcTrả lời0
pvt_key_collector
· 6giờ trước
Hà, lại là deepseek tạo ra trò mới, lần này mHC nghe có vẻ khá ấn tượng
---
Bạn đã chán chơi với residual connection chưa? Thú vị đấy, phải xem hiệu quả thực tế thế nào
---
Trung Quốc AI lại phát hành bài báo, thị trường vốn phương Tây lại sắp rung chuyển rồi
---
Từ manifold-constrained nghe có vẻ hơi cứng nhắc
---
LLM và mô hình thị giác đều có thể dùng, nếu thật sự triển khai thì đúng là đòn giáng mạnh mẽ
---
Không biết là đang thổi phồng hay thật sự có đột phá, chờ xem benchmark thôi
---
deepseek gần đây thật sự năng động, sau huy động vốn là bắt đầu bùng nổ bài báo
---
Nói chung vẫn là tối ưu hóa kiến trúc, cốt lõi logic có mới mẻ đến đâu
---
Loại này thường phải mất nửa năm mới thấy được có khả thi hay không, đừng vội khen ngợi quá
---
Vượt qua residual connection? Trời ơi lại sắp sửa sửa đổi giáo trình rồi sao
Xem bản gốcTrả lời0
BoredStaker
· 6giờ trước
Chết tiệt, deepseek lại chơi trò mới? Mỗi lần đội Trung Quốc phát một thứ gì đó, các phương tiện truyền thông phương Tây lại bắt đầu xôn xao.
Xem bản gốcTrả lời0
MemeTokenGenius
· 6giờ trước
Suy nghĩ kỹ rồi, cấu trúc mHC nghe có vẻ rất ấn tượng, nhưng thực tế có thể tạo ra gì còn phải xem
DeepSeek lại phát triển thứ mới, khá mạnh, liệu có thể vượt qua các mô hình hiện tại không?
Chìa khóa là liệu chi phí có thể thực sự giảm xuống không, chỉ dựa trên dữ liệu trên giấy thì vô nghĩa
Lần cập nhật công nghệ này, có thể sẽ gây ảnh hưởng lớn đến các nhà sản xuất GPU hiện tại...
mHC, LLM nghe có vẻ chuyên nghiệp, nhưng thực sự có thể ứng dụng vào hệ sinh thái web3...嗯
Xem bản gốcTrả lời0
PanicSeller
· 6giờ trước
Lại có kiến trúc mới rồi, tên mHC này đặt sao vậy, cảm giác cứ mỗi lần lại tạo ra từ mới
---
deepseek lại tung ra đòn mới, lần này thật sự có thể vượt qua kết nối residual không? Có chút tò mò
---
Các nhà sản xuất AI Trung Quốc thực sự cạnh tranh gay gắt, nhưng thứ này có thể sử dụng thực tế không
---
Xem tiêu đề chưa hiểu rõ, nhưng nghe có vẻ lại là một đống thuật ngữ toán học
---
emm lại là chuyện về mô hình siêu lớn, liên quan gì đến việc chúng ta đầu tư tiền mã hóa chứ
---
Thứ này nếu thật sự có thể giảm chi phí tính toán thì quá tuyệt vời, hiện tại huấn luyện mô hình quá tốn kém
---
Tiêu đề một nửa là tiếng Hàn một nửa là tiếng Trung, làm tôi hơi chóng mặt
---
Kiến trúc tốt thì tốt, nhưng vấn đề là ai có thể sử dụng được
Xem bản gốcTrả lời0
AirdropBlackHole
· 6giờ trước
DeepSea tuyển thủ lại bắt đầu cạnh tranh rồi, thiết kế kiến trúc của mHC lần này thực sự có chút gì đó, nhưng thành thật mà nói, những bài báo này nghe có vẻ đều giống nhau
Nhịp điệu của DeepSeek, cảm giác sẽ phá vỡ một số độc quyền
Hiệu suất của LLM có thể vượt qua giới hạn? Chúng ta cứ chờ xem
Lại là một đống thuật ngữ kỹ thuật, thực sự áp dụng vào thực tế còn phải xem cách làm sau này như thế nào
DeepSix giới thiệu kiến trúc AI thế hệ tiếp theo 'mHC' vượt qua liên kết residual
Nguồn: TokenPost Tiêu đề gốc: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Liên kết gốc: https://www.tokenpost.kr/news/ai/320188 DeepSeek( của tổ chức nghiên cứu AI Trung Quốc DeepSeek) đã công bố một kiến trúc mới có thể nâng cao đáng kể hiệu suất học tập trí tuệ nhân tạo thế hệ tiếp theo. Được đặt tên là ‘mHC(Manifold-Constrained Hyper-Connections)’, công nghệ này vượt qua phương pháp ‘kết nối dư(residual connection)’ cần thiết trong các mô hình ngôn ngữ lớn(LLM) và mô hình nhận thức thị giác, nâng cao độ chính xác học tập cũng như hiệu quả phần cứng, nhận được đánh giá tích cực.
mHC là phương pháp cải tiến từ công nghệ ‘siêu kết nối(Hyper-Connections)’ truyền thống. Siêu kết nối giúp truyền tải thông tin giữa các lớp(layer) của mô hình học sâu một cách hiệu quả hơn, nhưng trong thực tế vận hành lại bị hạn chế bởi nhiều giới hạn kỹ thuật. DeepSeek đã vượt qua giới hạn này bằng cách kết hợp khái niệm ‘mạng đa chiều(manifold)’. Mạng đa chiều là không gian có cấu trúc nhiều lớp về mặt toán học, từ hình tròn đơn giản đến các cấu trúc phức tạp vượt quá 3 chiều. DeepSeek giải thích rằng mHC sử dụng cấu trúc dựa trên mạng đa chiều này để đảm bảo tính ổn định và nhất quán của tín hiệu đạo hàm(tín hiệu lan truyền ngược lỗi) trong quá trình huấn luyện mô hình.
Để kiểm chứng hiệu suất của kiến trúc này, DeepSeek đã huấn luyện ba loại LLM có số tham số lần lượt là 3 tỷ, 9 tỷ và 27 tỷ theo cấu trúc mHC, và so sánh với các mô hình cùng cấu hình dựa trên siêu kết nối. Kết quả cho thấy các mô hình mHC đạt hiệu suất vượt trội trên tổng cộng 8 tiêu chuẩn đánh giá. Đặc biệt, về mặt yêu cầu bộ nhớ, mô hình này cho phép huấn luyện hiệu quả hơn so với cấu trúc cũ, đồng thời chi phí phần cứng trong quá trình huấn luyện chỉ chiếm khoảng 6.27%.
Các nhà nghiên cứu của DeepSeek nhấn mạnh: “Hiểu sâu hơn về mối quan hệ giữa cấu trúc hình học của mạng đa chiều và thuật toán tối ưu sẽ giúp mHC vượt qua giới hạn hiện tại của các mô hình AI và mở ra con đường mới cho thiết kế hạ tầng dựa trên nền tảng này.”
Thông báo này thu hút sự chú ý vì xuất hiện trong bối cảnh toàn cầu đang xem xét lại các kiến trúc học tập AI gần đây. Phương pháp kết nối dư từ năm 2015 đã được sử dụng rộng rãi trong các mô hình LLM và phân loại hình ảnh. Cấu trúc này truyền tín hiệu lỗi từ lớp cuối cùng ngược trở lại các lớp trước để truyền tải thông tin huấn luyện, đồng thời giúp giảm thiểu hiện tượng biến dạng thông tin xảy ra trong quá trình này.
Tuy nhiên, khi các mô hình AI ngày càng trở nên siêu lớn, giới hạn của kết nối dư đã lộ rõ, và nhiều nỗ lực cải tiến đã được thực hiện. mHC của DeepSeek là công nghệ mới nhất trong bối cảnh này, được dự đoán sẽ góp phần trực tiếp nâng cao hiệu quả huấn luyện mô hình, nền tảng của toàn bộ ngành công nghiệp AI.