2026-01-14 10:23:07

Recentemente, tenho refletido sobre um fenómeno: por que os chatbots e as ferramentas de investimento em IA estão cada vez mais propensos a apresentar conclusões absurdas? À primeira vista, parece ser um problema do modelo, mas na realidade a origem costuma estar nos dados.

Experimentei perguntar por alguns dados básicos, e os resultados foram extremamente distorcidos — só ao verificar percebi que a informação estava completamente incorreta. Onde está o problema? De acordo com os dados do setor de 2025, mais de 37% dos erros gerados por IA vêm diretamente de dados de treino contaminados ou não rastreáveis. Este não é um número pequeno.

Imagine, por exemplo, um modelo de investimento que fornece justificações ambíguas, ou um assistente de chat que fala com confiança coisas sem sentido, e você nem sabe de onde vem a informação. Quem alterou esses dados? Qual a qualidade deles? Basicamente, tudo funciona como uma caixa preta. É como comer uma comida estragada de delivery — você não consegue identificar em que etapa o problema ocorreu.

Atualmente, há um consenso emergente na indústria: a competição em IA não se resume mais ao tamanho dos parâmetros do modelo, mas sim à qualidade dos dados, se eles são "limpos" e verificáveis. E essa é uma oportunidade.

Recentemente, observei as ações de uma das principais ecossistemas de blockchain público, que está usando uma pilha tecnológica para resolver esse problema. Entre elas, há um protocolo dedicado à validação e armazenamento de dados, com uma abordagem bastante interessante — não apenas armazenar dados, mas atuar como uma "notária" de dados na era da IA, permitindo que cada informação seja rastreável e verificável. Essa direção merece atenção, pois é realmente o caminho para resolver a credibilidade da IA.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

17 Curtidas

Recompensa
17
6
Repostar
Compartilhar

Comentário

0/400

RektRecovery

· 01-17 06:43

ngl, esta estatística de 37% é louca mas também... meio previsível? tipo, todos vimos isto a acontecer. lixo entra, lixo sai—tenho dito isso há meses lol. a verdadeira comédia é ver estes modelos a enganar com confiança enquanto os devs fingem que é apenas uma "peculiaridade de treino"

Ver originalResponder0

NftDeepBreather

· 01-14 12:03

A questão da poluição de dados já devia ter sido levada a sério há muito tempo, quantos obstáculos já enfrentámos antes.

Ver originalResponder0

SandwichDetector

· 01-14 10:53

A toxicidade dos dados é realmente um ponto difícil, o número de 37% é bastante impactante.

Ver originalResponder0

OnchainGossiper

· 01-14 10:45

A contaminação de dados é realmente impressionante, o meu consultor de IA na semana passada recomendou-me uma moeda, e o motivo era tão absurdo que fiquei sem palavras

Ver originalResponder0

ApeWithNoFear

· 01-14 10:40

A caixa preta dos dados é realmente impressionante, confio na taxa de erro de 37%, todos os dias sendo enganado pela IA...

Ver originalResponder0

GhostAddressMiner

· 01-14 10:29

37% esse número eu tenho que colocar um ponto de interrogação... A proporção real de dados de poluição é certamente maior, mas ninguém ousa dizer isso publicamente Tenho uma grande impressão da caixa preta dos dados, os rastros na cadeia podem ser rastreados, mas o conjunto de treinamento de IA virou um mistério, que ironia Aquele acordo de "cartório" parece bom, mas o ponto crucial é quem vai verificar os validadores... essa é a verdadeira questão

Ver originalResponder0