2026-01-14 10:23:07

Recentemente, tenho refletido sobre um fenómeno: por que os chatbots e as ferramentas de investimento em IA estão cada vez mais propensos a apresentar conclusões absurdas? À primeira vista, parece ser um problema do modelo, mas na realidade a origem costuma estar nos dados.

Experimentei perguntar por alguns dados básicos, e os resultados foram extremamente distorcidos — só ao verificar percebi que a informação estava completamente incorreta. Onde está o problema? De acordo com os dados do setor de 2025, mais de 37% dos erros gerados por IA vêm diretamente de dados de treino contaminados ou não rastreáveis. Este não é um número pequeno.

Imagine, por exemplo, um modelo de investimento que fornece justificações ambíguas, ou um assistente de chat que fala com confiança coisas sem sentido, e você nem sabe de onde vem a informação. Quem alterou esses dados? Qual a qualidade deles? Basicamente, tudo funciona como uma caixa preta. É como comer uma comida estragada de delivery — você não consegue identificar em que etapa o problema ocorreu.

Atualmente, há um consenso emergente na indústria: a competição em IA não se resume mais ao tamanho dos parâmetros do modelo, mas sim à qualidade dos dados, se eles são "limpos" e verificáveis. E essa é uma oportunidade.

Recentemente, observei as ações de uma das principais ecossistemas de blockchain público, que está usando uma pilha tecnológica para resolver esse problema. Entre elas, há um protocolo dedicado à validação e armazenamento de dados, com uma abordagem bastante interessante — não apenas armazenar dados, mas atuar como uma "notária" de dados na era da IA, permitindo que cada informação seja rastreável e verificável. Essa direção merece atenção, pois é realmente o caminho para resolver a credibilidade da IA.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos

Recompensa
11
5
Republicar
Partilhar

Comentar

0/400

NftDeepBreather

· 13h atrás

A questão da poluição de dados já devia ter sido levada a sério há muito tempo, quantos obstáculos já enfrentámos antes.

Ver originalResponder0

SandwichDetector

· 14h atrás

A toxicidade dos dados é realmente um ponto difícil, o número de 37% é bastante impactante.

Ver originalResponder0

OnchainGossiper

· 14h atrás

A contaminação de dados é realmente impressionante, o meu consultor de IA na semana passada recomendou-me uma moeda, e o motivo era tão absurdo que fiquei sem palavras

Ver originalResponder0

ApeWithNoFear

· 15h atrás

A caixa preta dos dados é realmente impressionante, confio na taxa de erro de 37%, todos os dias sendo enganado pela IA...

Ver originalResponder0

GhostAddressMiner

· 15h atrás

37% esse número eu tenho que colocar um ponto de interrogação... A proporção real de dados de poluição é certamente maior, mas ninguém ousa dizer isso publicamente Tenho uma grande impressão da caixa preta dos dados, os rastros na cadeia podem ser rastreados, mas o conjunto de treinamento de IA virou um mistério, que ironia Aquele acordo de "cartório" parece bom, mas o ponto crucial é quem vai verificar os validadores... essa é a verdadeira questão

Ver originalResponder0