L'apprentissage par renforcement était autrefois vraiment difficile—évaluer les actions de l'agent, déterminer les récompenses et pénalités appropriées, attribuer les résultats à des composants spécifiques. C'était compliqué.
Cela a changé radicalement. Les grands modèles de langage gèrent désormais le travail lourd des tâches d'évaluation. Avec les LLMs qui prennent en charge l'évaluation et les boucles de rétroaction, ce qui nécessitait autrefois une conception manuelle minutieuse est devenu réalisable par algorithme. Le goulot d'étranglement s'est ouvert.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
7
Reposter
Partager
Commentaire
0/400
UnruggableChad
· Il y a 23h
llm a vraiment sauvé ce problème de rl, la précédente conception du système de récompense et de punition était horrible, maintenant on le confie directement à l'IA et c'est réglé.
Voir l'originalRépondre0
NotAFinancialAdvice
· 01-08 23:17
llm prend en charge le travail sale et pénible de la RL, maintenant l'algorithme peut fonctionner... mais on a l'impression que c'est encore un autre boîtier noir auquel on transfère le problème ?
Voir l'originalRépondre0
TokenStorm
· 01-07 23:57
LLM pour l'évaluation est effectivement une avancée technique clé, mais honnêtement, cette logique peut-elle être réutilisée pour les retours de données en chaîne ? Les données de backtest semblent belles, mais en pratique, ça donne toujours cette impression de manquer quelque chose... Mais de toute façon, je n'ai pas encore compris, je vais tenter ma chance d'abord[Tête de chien]
Voir l'originalRépondre0
ParallelChainMaxi
· 01-07 23:56
lm remplace directement la conception manuelle, cette vague est vraiment impressionnante... mais qui peut garantir que la logique d'évaluation de lm elle-même n'a pas de problème ?
Voir l'originalRépondre0
TokenomicsTinfoilHat
· 01-07 23:44
llm mise tout, le travail difficile de RL est externalisé, cette fois il y a vraiment quelque chose
Voir l'originalRépondre0
AlwaysAnon
· 01-07 23:35
Hmm, l'évaluation par LLM a vraiment changé la donne, l'ancien cauchemar de l'ajustement manuel des paramètres est enfin soulagé.
Voir l'originalRépondre0
gaslight_gasfeez
· 01-07 23:33
llm a pris le relais de l'évaluation RL ? La limite supérieure du RL va vraiment être dépassée maintenant
L'apprentissage par renforcement était autrefois vraiment difficile—évaluer les actions de l'agent, déterminer les récompenses et pénalités appropriées, attribuer les résultats à des composants spécifiques. C'était compliqué.
Cela a changé radicalement. Les grands modèles de langage gèrent désormais le travail lourd des tâches d'évaluation. Avec les LLMs qui prennent en charge l'évaluation et les boucles de rétroaction, ce qui nécessitait autrefois une conception manuelle minutieuse est devenu réalisable par algorithme. Le goulot d'étranglement s'est ouvert.