Source : TokenPost
Titre Original : 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
Lien Original : https://www.tokenpost.kr/news/ai/320188
DeepSeek(, un institut de recherche en IA en Chine, a annoncé une nouvelle architecture capable d’améliorer considérablement les performances d’apprentissage de l’intelligence artificielle de prochaine génération. Nommée ‘mHC)Manifold-Constrained Hyper-Connections(’, cette technologie dépasse la méthode ‘connexion résiduelle)residual connection(’ essentielle dans les modèles linguistiques de grande taille)LLM( et les modèles de reconnaissance visuelle, en améliorant à la fois la précision d’apprentissage et l’efficacité matérielle.
mHC est une version améliorée de la technologie ‘hyper-connexion)Hyper-Connections(’ existante. Les hyper-connexions ont été remarquées pour leur capacité à transmettre plus efficacement l’information entre les couches)layer( d’un modèle d’apprentissage profond, mais leur utilisation a été limitée dans les environnements opérationnels en raison de diverses contraintes techniques. DeepSeek a surmonté cette limite en intégrant le concept de ‘maniifold)manifold(’. Un manifold est un espace mathématique à structure multi-niveaux, allant de formes simples comme des cercles à des structures complexes en plus de 3 dimensions. DeepSeek explique que mHC utilise cette structure basée sur le manifold pour assurer la stabilité et la cohérence du gradient)erreur de rétropropagation( généré lors de l’apprentissage du modèle, jouant un rôle clé.
Pour valider la performance de cette architecture, DeepSeek a entraîné trois types de LLM comportant respectivement 3 milliards, 9 milliards et 27 milliards de paramètres avec la structure mHC, et a comparé ces modèles à des modèles de même spécification utilisant des hyper-connexions. Selon l’entreprise, les modèles mHC ont montré des performances supérieures de manière cohérente sur 8 benchmarks. En particulier, ils ont permis un apprentissage plus efficace en termes de consommation mémoire, avec un surcoût matériel lors de l’entraînement limité à 6,27 %.
Les chercheurs de DeepSeek ont déclaré : « En approfondissant la compréhension de la relation entre la structure topologique basée sur le manifold et l’algorithme d’optimisation, mHC pourrait dépasser les limites actuelles des modèles IA et ouvrir de nouvelles voies pour la conception d’infrastructures de prochaine génération. »
Cette annonce intervient dans un contexte de réévaluation mondiale récente des architectures d’apprentissage IA. La méthode de connexion résiduelle, introduite en 2015 dans la recherche en deep learning, a été largement utilisée dans les modèles LLM et la classification d’images. Elle consiste à faire remonter le signal d’erreur généré par la dernière couche de sortie pour transmettre l’information d’apprentissage à toutes les couches précédentes, en compensant les déformations de l’information qui peuvent survenir dans ce processus.
Cependant, à mesure que les modèles IA deviennent de plus en plus massifs, les limites de cette connexion résiduelle ont été révélées, et diverses tentatives d’amélioration ont été entreprises. La technologie mHC de DeepSeek, en tant que dernière innovation dans ce contexte, pourrait contribuer directement à améliorer l’efficacité de l’apprentissage des modèles, qui constitue la base de l’industrie de l’IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
9
Reposter
Partager
Commentaire
0/400
ImpermanentLossFan
· Il y a 3h
Encore mHC ? On dirait que ces deux dernières années, la mise à jour des architectures IA a été extrêmement rapide, je n'ai pas encore compris la précédente.
---
deepseek innove encore, mais au final, ces résultats de recherche en Chine sont toujours bloqués par des obstacles.
---
La connexion résiduelle est devenue monnaie courante, mais mHC peut-il vraiment être beaucoup meilleur que la résiduelle ?
---
Encore une architecture surpassant le transformer, est-ce vrai ou faux ?
---
Ça a l'air pas mal, mais comme je le dis toujours, le coût réel de l'inférence est la clé.
Voir l'originalRépondre0
PretendingToReadDocs
· Il y a 10h
Oh là là, encore une nouvelle astuce de DeepSeek, ce mHC va-t-il encore tout révolutionner ?
---
Même la connexion de la chaîne peut être surpassée ? Cette technologie est-elle fiable ou non, juste en regardant le nom, on est un peu perdu
---
L'IA chinoise sort encore et encore de nouvelles architectures, pendant que nous sommes encore en train de jouer avec le nombre de paramètres haha
---
Les modèles LLM et visuels peuvent tous deux être améliorés ? On dirait que c'est un peu exagéré
---
Pourquoi cette abréviation mHC est-elle si peu fluide, je ne peux même pas la retenir
---
DeepSeek publie des papiers l'un après l'autre, on ne sait pas vraiment si ça marche en pratique
---
Encore des termes comme manifold et hyper, ces gens aiment vraiment utiliser ces mots sophistiqués
Voir l'originalRépondre0
CryptoHistoryClass
· Il y a 13h
ngl, vu cette courbe auparavant... les connexions résiduelles étaient censées être l'architecture ultime en 2017. maintenant elles la "transcendent" ? *vérifie les graphiques de performance historiques* ...ouais, nous sommes définitivement dans la phase de "percée révolutionnaire" du cycle à nouveau. donne-lui 18 mois
Voir l'originalRépondre0
LiquidationWatcher
· Il y a 13h
ngl deepseek lance une nouvelle architecture d'IA alors que nous transpirons tous pour nos positions... tu te souviens quand tout le monde pensait que les connexions résiduelles étaient la fin du jeu ? de toute façon, cette histoire de mhc semble légitime mais je ne sais pas, chaque fois que la Chine annonce une avancée, mon PTSD de liquidation se déclenche. j'ai vu trop de jeux technologiques "révolutionnaires" se faire frontrunner jusqu'à l'oubli en 2022.
Voir l'originalRépondre0
pvt_key_collector
· Il y a 13h
哈,又是deepseek搞新花样,这次的mHC听起来挺牛逼的样子
---
Résidus de connexion sont-ils tous usés ? C'est intéressant, il faut voir l'effet réel
---
La Chine AI publie à nouveau des articles, le marché des capitaux occidental va encore trembler
---
Le mot manifold-constrained sonne un peu rigide
---
LLM et modèles visuels peuvent tous deux être utilisés, si cela se concrétise, ce sera une véritable révolution
---
Je ne sais pas si c'est de la spéculation ou s'il y a vraiment une avancée, attendons le benchmark
---
deepseek ces derniers temps est vraiment actif, après le financement ils ont commencé à publier des articles en mode bombardement
---
En fin de compte, il s'agit toujours d'optimiser l'architecture, quelle est la nouveauté du cœur logique ?
---
Ce genre de chose prend généralement un semestre pour voir si ça marche ou pas, ne te précipite pas pour faire le malin
---
Dépasser la residual connection ? Mon Dieu, faut-il encore changer le manuel ?
Voir l'originalRépondre0
BoredStaker
· Il y a 13h
Merde, deepseek a encore inventé une nouvelle astuce ? Chaque fois que l'équipe chinoise publie quelque chose, les médias occidentaux commencent à faire du bruit.
Voir l'originalRépondre0
MemeTokenGenius
· Il y a 13h
Réflexion faite, cette architecture mHC semble impressionnante, mais ce qu'elle pourra réellement produire dépend encore de l'exécution.
DeepSeek développe de nouvelles choses, c'est plutôt impressionnant, peut-il surpasser les modèles actuels ?
L'essentiel est de savoir si les coûts peuvent vraiment être réduits, les données sur papier ne suffisent pas.
Cette vague d'itérations technologiques pourrait avoir un impact assez fort sur les fabricants de GPU existants...
mHC, LLM, ça sonne professionnel, mais en réalité, peu de choses peuvent être appliquées à l'écosystème web3...嗯
Voir l'originalRépondre0
PanicSeller
· Il y a 13h
Encore une nouvelle architecture, comment ont-ils choisi le nom mHC, on dirait qu'ils inventent des mots à chaque fois
---
deepseek lance une nouvelle fonctionnalité, cette fois-ci peut-il vraiment surpasser la connexion résiduelle ? Je suis un peu curieux
---
Les entreprises chinoises d'IA sont vraiment compétitives, mais cet outil peut-il réellement être utilisé
---
Je n'ai pas encore compris le titre, mais ça ressemble à une série de termes mathématiques
---
emm encore une histoire de modèles ultra-grands, quel rapport avec notre trading de crypto ?
---
Si cette technologie peut vraiment réduire les coûts de calcul, ce serait génial. En ce moment, entraîner des modèles coûte trop cher
---
Le titre est à moitié en coréen, à moitié en chinois, ça me donne un peu le tournis
---
Une bonne architecture, c'est bien, mais le problème c'est qui pourra l'utiliser
Voir l'originalRépondre0
AirdropBlackHole
· Il y a 14h
Les concurrents de DeepSea sont de retour, cette vague de conception d'architecture de mHC a vraiment quelque chose, mais honnêtement, ces papiers semblent tous similaires.
Le rythme de DeepSeek donne l'impression qu'il va briser certains monopoles.
Le plafond de performance des LLM va-t-il être dépassé ? On va voir.
Encore une pile de termes techniques, la véritable mise en œuvre dépendra de la suite.
DeepSeek dévoile une architecture d’IA de nouvelle génération 'mHC' qui va au-delà de la simple connectivité résiduelle
Source : TokenPost Titre Original : 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Lien Original : https://www.tokenpost.kr/news/ai/320188 DeepSeek(, un institut de recherche en IA en Chine, a annoncé une nouvelle architecture capable d’améliorer considérablement les performances d’apprentissage de l’intelligence artificielle de prochaine génération. Nommée ‘mHC)Manifold-Constrained Hyper-Connections(’, cette technologie dépasse la méthode ‘connexion résiduelle)residual connection(’ essentielle dans les modèles linguistiques de grande taille)LLM( et les modèles de reconnaissance visuelle, en améliorant à la fois la précision d’apprentissage et l’efficacité matérielle.
mHC est une version améliorée de la technologie ‘hyper-connexion)Hyper-Connections(’ existante. Les hyper-connexions ont été remarquées pour leur capacité à transmettre plus efficacement l’information entre les couches)layer( d’un modèle d’apprentissage profond, mais leur utilisation a été limitée dans les environnements opérationnels en raison de diverses contraintes techniques. DeepSeek a surmonté cette limite en intégrant le concept de ‘maniifold)manifold(’. Un manifold est un espace mathématique à structure multi-niveaux, allant de formes simples comme des cercles à des structures complexes en plus de 3 dimensions. DeepSeek explique que mHC utilise cette structure basée sur le manifold pour assurer la stabilité et la cohérence du gradient)erreur de rétropropagation( généré lors de l’apprentissage du modèle, jouant un rôle clé.
Pour valider la performance de cette architecture, DeepSeek a entraîné trois types de LLM comportant respectivement 3 milliards, 9 milliards et 27 milliards de paramètres avec la structure mHC, et a comparé ces modèles à des modèles de même spécification utilisant des hyper-connexions. Selon l’entreprise, les modèles mHC ont montré des performances supérieures de manière cohérente sur 8 benchmarks. En particulier, ils ont permis un apprentissage plus efficace en termes de consommation mémoire, avec un surcoût matériel lors de l’entraînement limité à 6,27 %.
Les chercheurs de DeepSeek ont déclaré : « En approfondissant la compréhension de la relation entre la structure topologique basée sur le manifold et l’algorithme d’optimisation, mHC pourrait dépasser les limites actuelles des modèles IA et ouvrir de nouvelles voies pour la conception d’infrastructures de prochaine génération. »
Cette annonce intervient dans un contexte de réévaluation mondiale récente des architectures d’apprentissage IA. La méthode de connexion résiduelle, introduite en 2015 dans la recherche en deep learning, a été largement utilisée dans les modèles LLM et la classification d’images. Elle consiste à faire remonter le signal d’erreur généré par la dernière couche de sortie pour transmettre l’information d’apprentissage à toutes les couches précédentes, en compensant les déformations de l’information qui peuvent survenir dans ce processus.
Cependant, à mesure que les modèles IA deviennent de plus en plus massifs, les limites de cette connexion résiduelle ont été révélées, et diverses tentatives d’amélioration ont été entreprises. La technologie mHC de DeepSeek, en tant que dernière innovation dans ce contexte, pourrait contribuer directement à améliorer l’efficacité de l’apprentissage des modèles, qui constitue la base de l’industrie de l’IA.