2026-01-07 23:30:06

L'apprentissage par renforcement était autrefois vraiment difficile—évaluer les actions de l'agent, déterminer les récompenses et pénalités appropriées, attribuer les résultats à des composants spécifiques. C'était compliqué.

Cela a changé radicalement. Les grands modèles de langage gèrent désormais le travail lourd des tâches d'évaluation. Avec les LLMs qui prennent en charge l'évaluation et les boucles de rétroaction, ce qui nécessitait autrefois une conception manuelle minutieuse est devenu réalisable par algorithme. Le goulot d'étranglement s'est ouvert.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

14 J'aime

Récompense
14
7
Reposter
Partager

Commentaire

0/400

UnruggableChad

· Il y a 23h

llm a vraiment sauvé ce problème de rl, la précédente conception du système de récompense et de punition était horrible, maintenant on le confie directement à l'IA et c'est réglé.

Voir l'originalRépondre0

NotAFinancialAdvice

· 01-08 23:17

llm prend en charge le travail sale et pénible de la RL, maintenant l'algorithme peut fonctionner... mais on a l'impression que c'est encore un autre boîtier noir auquel on transfère le problème ?

Voir l'originalRépondre0

TokenStorm

· 01-07 23:57

LLM pour l'évaluation est effectivement une avancée technique clé, mais honnêtement, cette logique peut-elle être réutilisée pour les retours de données en chaîne ? Les données de backtest semblent belles, mais en pratique, ça donne toujours cette impression de manquer quelque chose... Mais de toute façon, je n'ai pas encore compris, je vais tenter ma chance d'abord[Tête de chien]

Voir l'originalRépondre0

ParallelChainMaxi

· 01-07 23:56

lm remplace directement la conception manuelle, cette vague est vraiment impressionnante... mais qui peut garantir que la logique d'évaluation de lm elle-même n'a pas de problème ?

Voir l'originalRépondre0

TokenomicsTinfoilHat

· 01-07 23:44

llm mise tout, le travail difficile de RL est externalisé, cette fois il y a vraiment quelque chose

Voir l'originalRépondre0

AlwaysAnon

· 01-07 23:35

Hmm, l'évaluation par LLM a vraiment changé la donne, l'ancien cauchemar de l'ajustement manuel des paramètres est enfin soulagé.

Voir l'originalRépondre0

gaslight_gasfeez