Recentemente, tenho refletido sobre um fenómeno: por que os chatbots e as ferramentas de investimento em IA estão cada vez mais propensos a apresentar conclusões absurdas? À primeira vista, parece ser um problema do modelo, mas na realidade a origem costuma estar nos dados.



Experimentei perguntar por alguns dados básicos, e os resultados foram extremamente distorcidos — só ao verificar percebi que a informação estava completamente incorreta. Onde está o problema? De acordo com os dados do setor de 2025, mais de 37% dos erros gerados por IA vêm diretamente de dados de treino contaminados ou não rastreáveis. Este não é um número pequeno.

Imagine, por exemplo, um modelo de investimento que fornece justificações ambíguas, ou um assistente de chat que fala com confiança coisas sem sentido, e você nem sabe de onde vem a informação. Quem alterou esses dados? Qual a qualidade deles? Basicamente, tudo funciona como uma caixa preta. É como comer uma comida estragada de delivery — você não consegue identificar em que etapa o problema ocorreu.

Atualmente, há um consenso emergente na indústria: a competição em IA não se resume mais ao tamanho dos parâmetros do modelo, mas sim à qualidade dos dados, se eles são "limpos" e verificáveis. E essa é uma oportunidade.

Recentemente, observei as ações de uma das principais ecossistemas de blockchain público, que está usando uma pilha tecnológica para resolver esse problema. Entre elas, há um protocolo dedicado à validação e armazenamento de dados, com uma abordagem bastante interessante — não apenas armazenar dados, mas atuar como uma "notária" de dados na era da IA, permitindo que cada informação seja rastreável e verificável. Essa direção merece atenção, pois é realmente o caminho para resolver a credibilidade da IA.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Repostar
  • Compartilhar
Comentário
0/400
RektRecoveryvip
· 01-17 06:43
ngl, esta estatística de 37% é louca mas também... meio previsível? tipo, todos vimos isto a acontecer. lixo entra, lixo sai—tenho dito isso há meses lol. a verdadeira comédia é ver estes modelos a enganar com confiança enquanto os devs fingem que é apenas uma "peculiaridade de treino"
Ver originalResponder0
NftDeepBreathervip
· 01-14 12:03
A questão da poluição de dados já devia ter sido levada a sério há muito tempo, quantos obstáculos já enfrentámos antes.
Ver originalResponder0
SandwichDetectorvip
· 01-14 10:53
A toxicidade dos dados é realmente um ponto difícil, o número de 37% é bastante impactante.
Ver originalResponder0
OnchainGossipervip
· 01-14 10:45
A contaminação de dados é realmente impressionante, o meu consultor de IA na semana passada recomendou-me uma moeda, e o motivo era tão absurdo que fiquei sem palavras
Ver originalResponder0
ApeWithNoFearvip
· 01-14 10:40
A caixa preta dos dados é realmente impressionante, confio na taxa de erro de 37%, todos os dias sendo enganado pela IA...
Ver originalResponder0
GhostAddressMinervip
· 01-14 10:29
37% esse número eu tenho que colocar um ponto de interrogação... A proporção real de dados de poluição é certamente maior, mas ninguém ousa dizer isso publicamente Tenho uma grande impressão da caixa preta dos dados, os rastros na cadeia podem ser rastreados, mas o conjunto de treinamento de IA virou um mistério, que ironia Aquele acordo de "cartório" parece bom, mas o ponto crucial é quem vai verificar os validadores... essa é a verdadeira questão
Ver originalResponder0
  • Marcar