A nossa tese de AI Crypto (Parte II): A Computação Descentralizada é Rei

Avançado12/18/2024, 1:56:03 AM
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA: Cálculo Descentralizado: Treino, Inferência & Mercados de GPU, Redes de Dados, IA Verificável, Agentes de IA vivendo na cadeia. Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetada para ser uma imersão profunda exaustiva em todos os setores — isso é uma toca de coelho para outro dia.

Não me livrei desta grande falha.

Ainda me assombra porque era a aposta mais óbvia para qualquer pessoa atenta, no entanto, não investi um único dólar.

Não, não era o próximo Solana killer ou um memecoin com um cão usando um chapéu engraçado.

Foi… NVIDIA.

Preço das ações da NVDA desde o início do ano. Fonte: Google

Em apenas um ano, a NVDA triplicou de valor, passando de uma capitalização de mercado de $1T para $3T. Ela até superou o Bitcoin no mesmo período.

Claro, parte disso é exagero de IA. Mas uma grande parte disso está enraizada na realidade. A NVIDIA relatou $60B em receitas para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pelas Big Techs adquirindo GPUs em uma corrida armamentista global de IA para AGI.

Então, por que eu perdi isso?

Durante dois anos, estive totalmente focado em cripto e não olhei para o que estava a acontecer na área da IA. Foi um grande erro e ainda me incomoda.

Mas não estou a cometer o mesmo erro duas vezes.

Hoje, a Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. Os paralelos com a Corrida do Ouro da Califórnia do século XIX são difíceis de ignorar - indústrias e cidades surgiram durante a noite, a infraestrutura avançou a uma velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram arriscar.

Como a NVIDIA nos primeiros dias, a Crypto AI será óbvia em retrospectiva.

Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante de hoje para investidores e construtores.

Aqui está um breve resumo:

  • Muitos ainda o consideram como “vaporware”.
  • A IA de Cripto está em seu ciclo inicial, provavelmente a 1-2 anos de distância do pico da empolgação.
  • Existe uma oportunidade de crescimento de mais de $230B neste espaço, no mínimo.

No seu âmago, Crypto AI é uma IA com infraestrutura criptográfica sobreposta. Isso significa que é mais provável que acompanhe a trajetória de crescimento exponencial da IA do que o mercado de criptografia em geral. Portanto, para se manter à frente, você precisa sintonizar as últimas pesquisas em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.

Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA:

  1. Computação descentralizada: mercados de treino, inferência e GPU
  2. Redes de dados
  3. IA Verificável
  4. Agentes de IA vivendo na cadeia

Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetado para ser uma investigação exaustiva em todos os setores — isso é uma toca de coelho para outro dia.

Em vez disso, considere-o um roteiro de alto nível elaborado para despertar a curiosidade, aprimorar sua pesquisa e orientar o pensamento de investimento.

Mapeando a paisagem

Eu imagino a pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertas em uma extremidade, que alimentam o treinamento descentralizado de modelos de IA.

Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos cripto-econômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente na cadeia, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.

As redes de coordenação unem tudo, permitindo uma comunicação e colaboração contínuas em todo o ecossistema.

Nesta visão, qualquer pessoa que esteja construindo em IA poderia aproveitar uma ou mais camadas deste conjunto, dependendo de suas necessidades específicas. Seja utilizando cálculos descentralizados para treinamento de modelos ou utilizando redes de avaliação para garantir saídas de alta qualidade, o conjunto oferece uma variedade de opções.

Graças à composabilidade inerente da blockchain, acredito que estamos naturalmente nos movendo em direção a um futuro modular. Cada camada está se tornando hiper-especializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada all-in-one.

Origem: topology.vc

Houve uma explosão cambriana de startups a serem construídas em todas as camadas da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.

O mapa mais abrangente e atualizado do panorama de startups de IA de criptomoedas que vi é mantido por Casey e sua equipe na topology.vc. É um recurso inestimável para qualquer pessoa que acompanhe o espaço.

Ao mergulhar nos subsectores de IA de Cripto, constantemente me pergunto: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou à procura de mercados que possam escalar para centenas de milhares de milhões.

1. Tamanho do Mercado

Vamos começar com o tamanho do mercado. Ao avaliar um subsector, pergunto a mim mesmo: está a criar um mercado totalmente novo ou a perturbar um já existente?

Por exemplo, leve a computação descentralizada. É uma categoria disruptiva cujo potencial pode ser estimado ao olhar para o mercado estabelecido de computação em nuvem, no valor de ~$680B hojee espera-se atingir os $2.5T em 2032.

Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, avaliá-los envolve uma combinação de suposições educadas e verificações instintivas dos problemas que eles estão resolvendo. E a armadilha é que, às vezes, o que parece ser um novo mercado é realmente apenas uma solução em busca de um problema.

2. Tempo

A sincronização é tudo. A tecnologia tende a melhorar e a ficar mais barata ao longo do tempo, mas o ritmo de progresso varia.

Quão madura é a tecnologia em um determinado sub-setor? Está pronta para escalar ou ainda está na fase de pesquisa, com aplicações práticas anos à frente? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de ‘esperar para ver’.

Tomemos a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lenta para uso generalizado. Provavelmente levará vários anos para que ela atinja a viabilidade mainstream. Ao focar em setores mais próximos da escalabilidade primeiro, posso gastar meu tempo e energia onde o ímpeto e a oportunidade estão se desenvolvendo.

Se eu tivesse que mapear essas categorias num gráfico de tamanho vs. tempo, seria algo parecido com isto. Tenha em mente que isto é mais um esboço conceptual do que um guia rígido e definitivo. Há muitas nuances, por exemplo, dentro da inferência verificável, diferentes abordagens como zkML e opML estão em diferentes níveis de prontidão para uso.

Dito isto, estou convencido de que a escala da IA será tão grande que mesmo o que parece “nicho” hoje poderá evoluir para um mercado significativo.

Vale também a pena notar que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes acontece em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.

Com este enquadramento em mente, vamos analisar cada sub-setor.

Setor 1: Computação descentralizada

TL;dr

  • A computação descentralizada é a espinha dorsal da IA descentralizada.
  • Mercados de GPU, treino descentralizado e inferência descentralizada estão profundamente interligados e prosperam juntos.
  • O lado do fornecimento geralmente vem de centros de dados de pequeno a médio porte e GPUs para consumidores.
  • A demanda é pequena, mas está crescendo. Hoje em dia vem de usuários sensíveis a preços e insensíveis à latência e de startups de IA menores.
  • O maior desafio para os mercados de GPU Web3 hoje é fazê-los funcionar na realidade.
  • Orquestrar GPUs através de uma rede descentralizada requer engenharia avançada e uma arquitetura de rede bem projetada e robusta.

1.1. Mercados de GPU / Redes de Computação

Várias equipas de IA de Cripto estão a posicionar-se para capitalizar a escassez de GPUs em relação à procura, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.

A proposta de valor central para os mercados de GPU é tripla:

  1. Pode aceder a computação a “até 90% mais barato” do que a AWS, que advém (1) da remoção dos intermediários e (2) da abertura do lado da oferta. Essencialmente, estes mercados permitem-lhe aproveitar o menor custo marginal de computação a nível global.
  2. Maior flexibilidade: Sem contratos de fidelização, sem KYC, sem tempos de espera.
  3. Resistência à censura

Para abordar o lado da oferta do mercado, estes mercados calculam a partir de:

  • GPUs de nível empresarial (por exemplo, A100s, H100s) de centros de dados de pequeno a médio porte lutam para encontrar demanda por conta própria ou mineiros de Bitcoin que procuram diversificar. Também sei de equipas que estão a tirar partido de grandes projetos de infraestruturas financiados pelo governo, onde os centros de dados foram construídos como parte das iniciativas de crescimento tecnológico. Estes fornecedores são frequentemente incentivados a manter as suas GPUs na rede, o que os ajuda a compensar os custos de amortização das suas GPUs.
  • GPUs de consumo dos milhões de jogadores e utilizadores domésticos que ligam os seus computadores à rede em troca de incentivos em tokens

Por outro lado, a procura por computação descentralizada hoje provém de:

  1. Usuários sensíveis ao preço e insensíveis à latência. Este segmento prioriza a acessibilidade em relação à velocidade. Pense em pesquisadores explorando novas áreas, desenvolvedores indie de IA e outros usuários conscientes dos custos que não precisam de processamento em tempo real. Devido a restrições orçamentárias, muitos deles podem ter dificuldade com os hiperscaleres tradicionais como AWS ou Azure. Como estão distribuídos em toda a população, o marketing direcionado é crucial para atrair esse grupo.
  2. Pequenas startups de IA enfrentam desafios na obtenção de recursos de computação flexíveis e escaláveis sem ficarem presas a contratos de longo prazo com os principais provedores de nuvem. O desenvolvimento de negócios é vital para atrair este segmento, pois estão ativamente buscando alternativas ao bloqueio dos hiperescaladores.
  3. Startups de IA cripto a construir produtos de IA descentralizados, mas sem a sua própria oferta de computação, precisarão de recorrer aos recursos de uma destas redes.
  4. Jogos na nuvem: Embora não seja diretamente impulsionado por IA, os jogos na nuvem são uma fonte crescente de demanda por recursos de GPU.

A coisa mais importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.

O verdadeiro desafio: Demanda, não oferta

As startups neste espaço frequentemente exibem o tamanho das suas redes de fornecimento de GPU como sinal de sucesso. Mas isto é enganador - é, na melhor das hipóteses, uma métrica de vaidade.

A verdadeira restrição não é a oferta, mas a procura. As principais métricas a acompanhar não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs efetivamente alugadas.

Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da procura. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a procura latente se materialize.

Haseeb Qureshi (Dragonfly) coloca o melhor:

Fazer com que as redes de computação realmente funcionem

Contrariamente à crença popular, o maior obstáculo para os mercados de GPU distribuídos web3 hoje é simplesmente fazê-los funcionar corretamente.

Este não é um problema trivial.

Orquestrar GPUs através de uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, escalonamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gestão de latência, transferência de dados, tolerância a falhas e gestão de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.

Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e devidamente projetada.

Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão de ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes distribuídas de GPU. O próprio Kubernetes foi construído com base em mais de uma década de experiência do Google, e mesmo assim, levou anos de iteração implacável para acertar.

Algumas das plataformas de computação de GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso aconteça porque foram construídas sobre bases arquitetônicas mal projetadas.

Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que afirma. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser uma solução natural para sistemas de verificação sem confiança. Startups como Gensyn e Spheronestão buscando uma abordagem sem confiança para resolver essa questão.

Hoje em dia, muitas equipas web3 ainda estão a enfrentar estes desafios, o que significa que a oportunidade está completamente aberta.

Tamanho do Mercado de Computação Descentralizada

Quão grande é o mercado de redes de computação descentralizadas?

Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda desde que os custos permaneçam mais baixos do que os dos provedores tradicionais.

Acredito que os custos irão permanecer mais baixos no curto a médio prazo devido a uma mistura de subsídios de tokens e a liberação de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu posso alugar meu laptop de jogos para ganhar dinheiro extra, estou feliz, seja $20 ou $50 por mês).

Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a verdadeira expansão de seu TAM - virá quando:

  1. A formação descentralizada de modelos de IA torna-se prática
  2. A demanda por inferência explode e os data centers existentes não conseguem atendê-la. Isso já está começando a se desenrolar. Jensen Huang diz que a demanda por inferência está aumentando.aumentar “um bilhão de vezes”.
  3. Acordos de Nível de Serviço (SLAs) apropriados tornam-se disponíveis, abordando uma barreira crítica à adoção empresarial. Atualmente, a computação descentralizada opera com base no melhor esforço, deixando os usuários com diferentes níveis de qualidade de serviço (por exemplo, % de tempo de atividade). Com SLAs em vigor, essas redes poderiam oferecer métricas padronizadas de confiabilidade e desempenho, tornando a computação descentralizada uma alternativa viável aos fornecedores tradicionais de computação em nuvem.

Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.

Apesar da expansão contínua na cadeia de abastecimento de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.

Fique atento ao ponto de inflexão que poderá desencadear uma grande reclassificação de todos os mercados de GPUs em funcionamento. Provavelmente estará a chegar em breve.

Outras Notas:

  • O mercado exclusivo de GPUs está lotado, com competição entre plataformas descentralizadas e também oascensão dos neoclouds de IA da web2como Vast.ai e Lambda.
  • Pequenos nós (por exemplo, 4 x H100) não estão em grande procura devido ao seu uso limitado, mas boa sorte em encontrar alguém a vender grandes clusters - eles ainda estão em séria procura.
  • Um jogador dominante agregará todo o fornecimento de computação para protocolos descentralizados, ou permanecerá fragmentado entre vários mercados? Estou inclinado para o primeiro e uma distribuição de lei de potência nos resultados, pois a consolidação muitas vezes impulsiona a eficiência na infraestrutura. Mas levará tempo para se desenrolar e, enquanto isso, a fragmentação e a bagunça continuam.
  • Os desenvolvedores querem focar na construção de aplicativos, não lidar com implantação e configuração. Os mercados devem abstrair essas complexidades, tornando o acesso à computação o mais livre de atritos possível.

1.2. Treinamento Descentralizado

TL;dr

  • Se as leis de escalonamento forem válidas, treinar a próxima geração de modelos de IA de fronteira num único centro de dados tornar-se-á um dia impossível, fisicamente.
  • Treinar modelos de IA requer muita transferência de dados entre GPUs. A baixa velocidade de transferência de dados (interconexão) entre GPUs distribuídas é frequentemente a maior barreira.
  • Os pesquisadores estão explorando várias abordagens simultaneamente, e estão ocorrendo avanços (por exemplo, Open DiLoCo, DisTrO). Esses avanços se acumularão e se somarão, acelerando o progresso no espaço.
  • O futuro da formação descentralizada provavelmente reside em modelos mais pequenos e especializados projetados para aplicações de nicho, em vez de modelos focados em AGI de ponta.
  • A demanda de inferência está prestes a disparar com a mudança para modelos como o OpenAI’s o1, criando oportunidades para redes de inferência descentralizadas.

Imagine isto: um modelo de IA massivo e transformador, não desenvolvido em laboratórios de elite secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem guardiões centrais.

Neste futuro, os modelos em escala de fundação não são apenas o domínio dos principais laboratórios de IA.

Mas vamos ancorar esta visão na realidade de hoje. Por agora, a maior parte do treino de IA pesado continua ancorada em centros de dados centralizados, e provavelmente assim será durante algum tempo.

Empresas como a OpenAI estão a expandir as suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está perto de concluir um centro de dados com o equivalente a 200.000 GPUs H100.

Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida emO artigo PaLM do Googleem 2022 - acompanha quão efetivamente a capacidade máxima de uma GPU é usada. Surpreendentemente, o MFU frequentemente gira em torno de 35-40%.

Porque tão baixo? Enquanto o desempenho da GPU disparou ao longo dos anos seguindo a lei de Moore, as melhorias de rede, memória e armazenamento ficaram significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, esperando por dados.

O treinamento de IA ainda é altamente centralizado hoje por causa de uma palavra - Eficiência.

Treinar grandes modelos depende de técnicas como:

• Paralelismo de dados: Dividir conjuntos de dados em vários GPUs para realizar operações em paralelo, acelerando o processo de treino.

• Paralelismo de modelo: Distribuir partes do modelo entre as GPUs para contornar as restrições de memória.

Estes métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre os computadores da rede - absolutamente essencial.

Quando o treino do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.

Com suas interconexões de alta velocidade, os centros de dados centralizados permitem transferências rápidas de dados entre GPUs e criam economias substanciais de custo durante o tempo de treinamento que as configurações descentralizadas não podem igualar…ainda.

Superação da Velocidade Lenta de Interconexão

Se falares com pessoas que trabalham no espaço da IA, muitos dirão que o treino descentralizado simplesmente não funcionará.

Em setups descentralizados, clusters de GPU não estão fisicamente localizados no mesmo local, por isso a transferência de dados entre eles é muito mais lenta e torna-se um gargalo. O treino requer que as GPUs sincronizem e troquem dados em cada passo. Quanto mais distantes estiverem, maior será a latência. Maior latência significa velocidade de treino mais lenta e custos mais elevados.

O que poderia levar alguns dias num centro de dados centralizado poderia estender-se a duas semanas com uma abordagem descentralizada a um custo mais elevado. Simplesmente, isso não é viável.

Mas isso está prestes a mudar.

A boa notícia é que houve um enorme aumento de interesse na pesquisa em torno do treinamento distribuído. Os pesquisadores estão explorando várias abordagens simultaneamente, como evidenciado pela onda de estudos e artigos publicados. Esses avanços irão se acumular e se compor, acelerando o progresso no espaço.

Também se trata de testar em produção e ver até onde podemos chegar aos limites.

Algumas técnicas de treinamento descentralizadas já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.

  • Por exemplo, Prime Intellect’sabrir o papel DiCoLodemonstra uma abordagem prática que envolve “ilhas” de GPUs executando 500 passos locais antes da sincronização, reduzindo os requisitos de largura de banda em até 500 vezes. O que começou como pesquisa da Google DeepMind em modelos menores agora foi escalado para treinar um modelo de 10 bilhões de parâmetros em novembro - e totalmente disponibilizado hoje.
  • Nous Researchestá elevando o nível com a sua estrutura DisTrO, que utiliza otimizadores para proporcionar uma redução impressionante de até 10.000x nos requisitos de comunicação entre GPUs durante o treinamento de um modelo de 1,2 bilhão de parâmetros.
  • E o momentum continua a crescer. Em dezembro, a Nous anunciou a pré-treinamento de um modelo de 15B parâmetros com uma curva de perda (como o erro do modelo diminui ao longo do tempo) e uma taxa de convergência (a velocidade com que o desempenho do modelo se estabiliza) - que corresponde ou supera os resultados normalmente observados com configurações de treinamento centralizadas. Sim, melhor que centralizado.
  • Paralelismo SWARM e DTFMHE são outros métodos para treinar modelos de IA muito grandes em diferentes tipos de dispositivos, mesmo que esses dispositivos tenham velocidades e conexões variadas.

Outro desafio é gerenciar uma ampla gama de hardware de GPU, incluindo GPUs de consumo com memória limitada que são típicas em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.

O Futuro da Formação Descentralizada

Os métodos atuais de treinamento descentralizado ainda limitam os tamanhos dos modelos bem abaixo da fronteira (GPT-4 está relatadamente perto de um trilhão de parâmetros, 100 vezes maior do que o modelo de 10B do Prime Intellect). Para escalar verdadeiramente, precisaremos de avanços na arquitetura do modelo, melhor infraestrutura de rede e divisão mais inteligente de tarefas entre dispositivos.

E podemos sonhar grande. Imagine um mundo em que o treinamento descentralizado agregue mais poder de processamento de GPU do que os maiores centros de dados centralizados jamais poderiam reunir.

Pluralis Research (uma equipe afiada em treinamento descentralizado, para se observar de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão limitados por restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem aproveitar uma pool global de recursos efetivamente ilimitada.

Mesmo Jensen Huang da NVIDIA reconheceu quetreino descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.

Assim, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.

É uma perspectiva emocionante, mas ainda não estou totalmente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos é tecnicamente e economicamente viável.

Aqui está onde vejo um imenso potencial: o ponto ideal para treinamento descentralizado pode estar em modelos menores, especializados e de código aberto, projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultragrandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma opção natural para configurações descentralizadas.

E há mais uma peça neste puzzle: tokens. Quando o treino descentralizado se tornar viável em grande escala, os tokens poderão desempenhar um papel fundamental na incentivação e recompensa dos contribuidores, impulsionando eficazmente estas redes.

O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo as grandes empresas de tecnologia e os laboratórios de pesquisa de IA de primeiro nível — já que a escala dos modelos futuros ultrapassará a capacidade de um único centro de dados.

O futuro é distribuído. E quando uma tecnologia possui um potencial tão amplo, a história mostra que sempre melhora mais rápido do que qualquer um espera.

1.3. Inferência Descentralizada

Neste momento, a maioria do poder de computação em IA está a ser canalizada para treinar modelos maciços. Os principais laboratórios de IA estão numa corrida armamentista para desenvolver os melhores modelos fundamentais e, em última análise, alcançar a AGI.

Mas aqui está o meu ponto de vista: este intenso foco em computação no treinamento irá mudar para inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente, desde cuidados de saúde até entretenimento, os recursos computacionais necessários para suportar a inferência serão impressionantes.

E não é apenas especulação. A escala de computação em tempo de inferência é a mais recente palavra da moda em IA. A OpenAI lançou recentemente uma versão de pré-visualização/miniatura do seu último modelo, o1 (codinome: Morango), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder à pergunta, e depois passando por cada uma dessas etapas.

Este modelo é projetado para tarefas mais complexas e com mais planejamento, como resolver palavras cruzadas—e aborda problemas que requerem um raciocínio mais profundo. Vai notar que é mais lento, demorando mais tempo a gerar respostas, mas os resultados são muito mais ponderados e subtis. Também é muito mais caro de executar ( 25x o custo do GPT-4)

A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso de computação durante a inferência.

Se quiser ler mais, várias pesquisaspapéisdemonstrar:

  • Aumentar o cálculo da inferência através de amostragem repetida leva a grandes melhorias em várias tarefas.
  • Também existe uma lei de escala exponencial para a inferência.

Uma vez que os modelos poderosos são treinados, suas tarefas de inferência — onde os modelos realizam ações — podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:

  • A inferência consome muito menos recursos do que o treinamento. Uma vez treinados, os modelos podem ser compactados e otimizados usando técnicas como quantização, poda ou destilação. Eles podem até ser divididos com tensor ou paralelismo de pipeline para serem executados em dispositivos de consumo diário. Você não precisa de uma GPU high-end para alimentar a inferência.
  • Já está a acontecer.Exo Labsdescobriu como executar um modelo Llama3 de 450B parâmetros em hardware de consumo como MacBooks e Mac Minis. A distribuição da inferência em muitos dispositivos pode lidar até mesmo com cargas de trabalho em grande escala de forma eficiente e econômica.
  • Melhor experiência do utilizador. A execução de cálculos mais próxima do utilizador reduz a latência, o que é fundamental para aplicações em tempo real, como jogos, AR ou carros autónomos. Cada milissegundo conta.

Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para a IA: em vez de entregar websites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.

A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio de jogadores hardcore. O hardware que já temos é cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.

Valor Agregado da Cripto

Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados pelas suas contribuições computacionais. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para as tarefas de inferência e melhorando a tolerância a falhas.

E a melhor forma de construir redes descentralizadas? Cripto.

Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos trabalhem em direção ao mesmo objetivo: escalar a rede e aumentar o valor do token.

Os tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que paralisa a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.

O sucesso do Bitcoin e do Ethereum prova este ponto - eles já agregaram as maiores pools de poder de computação do planeta.

As redes de inferência descentralizadas são as próximas na fila. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais poderiam fazer.

  1. Este artigo é reproduzido a partir de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadeia de Pensamento](https://www.chainofthought.xyz/)\]. Todos os direitos autorais pertencem ao autor original [Teng Yan]. Se houver objeções a esta reimpressão, por favor entre em contato com o gate Learnequipa e eles tratarão disso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem qualquer conselho de investimento.
  3. As traduções do artigo para outros idiomas são feitas pela equipe de aprendizado da gate. A menos que mencionado, copiar, distribuir ou plagiar os artigos traduzidos é proibido.

A nossa tese de AI Crypto (Parte II): A Computação Descentralizada é Rei

Avançado12/18/2024, 1:56:03 AM
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA: Cálculo Descentralizado: Treino, Inferência & Mercados de GPU, Redes de Dados, IA Verificável, Agentes de IA vivendo na cadeia. Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetada para ser uma imersão profunda exaustiva em todos os setores — isso é uma toca de coelho para outro dia.

Não me livrei desta grande falha.

Ainda me assombra porque era a aposta mais óbvia para qualquer pessoa atenta, no entanto, não investi um único dólar.

Não, não era o próximo Solana killer ou um memecoin com um cão usando um chapéu engraçado.

Foi… NVIDIA.

Preço das ações da NVDA desde o início do ano. Fonte: Google

Em apenas um ano, a NVDA triplicou de valor, passando de uma capitalização de mercado de $1T para $3T. Ela até superou o Bitcoin no mesmo período.

Claro, parte disso é exagero de IA. Mas uma grande parte disso está enraizada na realidade. A NVIDIA relatou $60B em receitas para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pelas Big Techs adquirindo GPUs em uma corrida armamentista global de IA para AGI.

Então, por que eu perdi isso?

Durante dois anos, estive totalmente focado em cripto e não olhei para o que estava a acontecer na área da IA. Foi um grande erro e ainda me incomoda.

Mas não estou a cometer o mesmo erro duas vezes.

Hoje, a Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. Os paralelos com a Corrida do Ouro da Califórnia do século XIX são difíceis de ignorar - indústrias e cidades surgiram durante a noite, a infraestrutura avançou a uma velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram arriscar.

Como a NVIDIA nos primeiros dias, a Crypto AI será óbvia em retrospectiva.

Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante de hoje para investidores e construtores.

Aqui está um breve resumo:

  • Muitos ainda o consideram como “vaporware”.
  • A IA de Cripto está em seu ciclo inicial, provavelmente a 1-2 anos de distância do pico da empolgação.
  • Existe uma oportunidade de crescimento de mais de $230B neste espaço, no mínimo.

No seu âmago, Crypto AI é uma IA com infraestrutura criptográfica sobreposta. Isso significa que é mais provável que acompanhe a trajetória de crescimento exponencial da IA do que o mercado de criptografia em geral. Portanto, para se manter à frente, você precisa sintonizar as últimas pesquisas em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.

Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA:

  1. Computação descentralizada: mercados de treino, inferência e GPU
  2. Redes de dados
  3. IA Verificável
  4. Agentes de IA vivendo na cadeia

Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetado para ser uma investigação exaustiva em todos os setores — isso é uma toca de coelho para outro dia.

Em vez disso, considere-o um roteiro de alto nível elaborado para despertar a curiosidade, aprimorar sua pesquisa e orientar o pensamento de investimento.

Mapeando a paisagem

Eu imagino a pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertas em uma extremidade, que alimentam o treinamento descentralizado de modelos de IA.

Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos cripto-econômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente na cadeia, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.

As redes de coordenação unem tudo, permitindo uma comunicação e colaboração contínuas em todo o ecossistema.

Nesta visão, qualquer pessoa que esteja construindo em IA poderia aproveitar uma ou mais camadas deste conjunto, dependendo de suas necessidades específicas. Seja utilizando cálculos descentralizados para treinamento de modelos ou utilizando redes de avaliação para garantir saídas de alta qualidade, o conjunto oferece uma variedade de opções.

Graças à composabilidade inerente da blockchain, acredito que estamos naturalmente nos movendo em direção a um futuro modular. Cada camada está se tornando hiper-especializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada all-in-one.

Origem: topology.vc

Houve uma explosão cambriana de startups a serem construídas em todas as camadas da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.

O mapa mais abrangente e atualizado do panorama de startups de IA de criptomoedas que vi é mantido por Casey e sua equipe na topology.vc. É um recurso inestimável para qualquer pessoa que acompanhe o espaço.

Ao mergulhar nos subsectores de IA de Cripto, constantemente me pergunto: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou à procura de mercados que possam escalar para centenas de milhares de milhões.

1. Tamanho do Mercado

Vamos começar com o tamanho do mercado. Ao avaliar um subsector, pergunto a mim mesmo: está a criar um mercado totalmente novo ou a perturbar um já existente?

Por exemplo, leve a computação descentralizada. É uma categoria disruptiva cujo potencial pode ser estimado ao olhar para o mercado estabelecido de computação em nuvem, no valor de ~$680B hojee espera-se atingir os $2.5T em 2032.

Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, avaliá-los envolve uma combinação de suposições educadas e verificações instintivas dos problemas que eles estão resolvendo. E a armadilha é que, às vezes, o que parece ser um novo mercado é realmente apenas uma solução em busca de um problema.

2. Tempo

A sincronização é tudo. A tecnologia tende a melhorar e a ficar mais barata ao longo do tempo, mas o ritmo de progresso varia.

Quão madura é a tecnologia em um determinado sub-setor? Está pronta para escalar ou ainda está na fase de pesquisa, com aplicações práticas anos à frente? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de ‘esperar para ver’.

Tomemos a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lenta para uso generalizado. Provavelmente levará vários anos para que ela atinja a viabilidade mainstream. Ao focar em setores mais próximos da escalabilidade primeiro, posso gastar meu tempo e energia onde o ímpeto e a oportunidade estão se desenvolvendo.

Se eu tivesse que mapear essas categorias num gráfico de tamanho vs. tempo, seria algo parecido com isto. Tenha em mente que isto é mais um esboço conceptual do que um guia rígido e definitivo. Há muitas nuances, por exemplo, dentro da inferência verificável, diferentes abordagens como zkML e opML estão em diferentes níveis de prontidão para uso.

Dito isto, estou convencido de que a escala da IA será tão grande que mesmo o que parece “nicho” hoje poderá evoluir para um mercado significativo.

Vale também a pena notar que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes acontece em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.

Com este enquadramento em mente, vamos analisar cada sub-setor.

Setor 1: Computação descentralizada

TL;dr

  • A computação descentralizada é a espinha dorsal da IA descentralizada.
  • Mercados de GPU, treino descentralizado e inferência descentralizada estão profundamente interligados e prosperam juntos.
  • O lado do fornecimento geralmente vem de centros de dados de pequeno a médio porte e GPUs para consumidores.
  • A demanda é pequena, mas está crescendo. Hoje em dia vem de usuários sensíveis a preços e insensíveis à latência e de startups de IA menores.
  • O maior desafio para os mercados de GPU Web3 hoje é fazê-los funcionar na realidade.
  • Orquestrar GPUs através de uma rede descentralizada requer engenharia avançada e uma arquitetura de rede bem projetada e robusta.

1.1. Mercados de GPU / Redes de Computação

Várias equipas de IA de Cripto estão a posicionar-se para capitalizar a escassez de GPUs em relação à procura, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.

A proposta de valor central para os mercados de GPU é tripla:

  1. Pode aceder a computação a “até 90% mais barato” do que a AWS, que advém (1) da remoção dos intermediários e (2) da abertura do lado da oferta. Essencialmente, estes mercados permitem-lhe aproveitar o menor custo marginal de computação a nível global.
  2. Maior flexibilidade: Sem contratos de fidelização, sem KYC, sem tempos de espera.
  3. Resistência à censura

Para abordar o lado da oferta do mercado, estes mercados calculam a partir de:

  • GPUs de nível empresarial (por exemplo, A100s, H100s) de centros de dados de pequeno a médio porte lutam para encontrar demanda por conta própria ou mineiros de Bitcoin que procuram diversificar. Também sei de equipas que estão a tirar partido de grandes projetos de infraestruturas financiados pelo governo, onde os centros de dados foram construídos como parte das iniciativas de crescimento tecnológico. Estes fornecedores são frequentemente incentivados a manter as suas GPUs na rede, o que os ajuda a compensar os custos de amortização das suas GPUs.
  • GPUs de consumo dos milhões de jogadores e utilizadores domésticos que ligam os seus computadores à rede em troca de incentivos em tokens

Por outro lado, a procura por computação descentralizada hoje provém de:

  1. Usuários sensíveis ao preço e insensíveis à latência. Este segmento prioriza a acessibilidade em relação à velocidade. Pense em pesquisadores explorando novas áreas, desenvolvedores indie de IA e outros usuários conscientes dos custos que não precisam de processamento em tempo real. Devido a restrições orçamentárias, muitos deles podem ter dificuldade com os hiperscaleres tradicionais como AWS ou Azure. Como estão distribuídos em toda a população, o marketing direcionado é crucial para atrair esse grupo.
  2. Pequenas startups de IA enfrentam desafios na obtenção de recursos de computação flexíveis e escaláveis sem ficarem presas a contratos de longo prazo com os principais provedores de nuvem. O desenvolvimento de negócios é vital para atrair este segmento, pois estão ativamente buscando alternativas ao bloqueio dos hiperescaladores.
  3. Startups de IA cripto a construir produtos de IA descentralizados, mas sem a sua própria oferta de computação, precisarão de recorrer aos recursos de uma destas redes.
  4. Jogos na nuvem: Embora não seja diretamente impulsionado por IA, os jogos na nuvem são uma fonte crescente de demanda por recursos de GPU.

A coisa mais importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.

O verdadeiro desafio: Demanda, não oferta

As startups neste espaço frequentemente exibem o tamanho das suas redes de fornecimento de GPU como sinal de sucesso. Mas isto é enganador - é, na melhor das hipóteses, uma métrica de vaidade.

A verdadeira restrição não é a oferta, mas a procura. As principais métricas a acompanhar não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs efetivamente alugadas.

Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da procura. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a procura latente se materialize.

Haseeb Qureshi (Dragonfly) coloca o melhor:

Fazer com que as redes de computação realmente funcionem

Contrariamente à crença popular, o maior obstáculo para os mercados de GPU distribuídos web3 hoje é simplesmente fazê-los funcionar corretamente.

Este não é um problema trivial.

Orquestrar GPUs através de uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, escalonamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gestão de latência, transferência de dados, tolerância a falhas e gestão de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.

Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e devidamente projetada.

Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão de ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes distribuídas de GPU. O próprio Kubernetes foi construído com base em mais de uma década de experiência do Google, e mesmo assim, levou anos de iteração implacável para acertar.

Algumas das plataformas de computação de GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso aconteça porque foram construídas sobre bases arquitetônicas mal projetadas.

Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que afirma. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser uma solução natural para sistemas de verificação sem confiança. Startups como Gensyn e Spheronestão buscando uma abordagem sem confiança para resolver essa questão.

Hoje em dia, muitas equipas web3 ainda estão a enfrentar estes desafios, o que significa que a oportunidade está completamente aberta.

Tamanho do Mercado de Computação Descentralizada

Quão grande é o mercado de redes de computação descentralizadas?

Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda desde que os custos permaneçam mais baixos do que os dos provedores tradicionais.

Acredito que os custos irão permanecer mais baixos no curto a médio prazo devido a uma mistura de subsídios de tokens e a liberação de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu posso alugar meu laptop de jogos para ganhar dinheiro extra, estou feliz, seja $20 ou $50 por mês).

Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a verdadeira expansão de seu TAM - virá quando:

  1. A formação descentralizada de modelos de IA torna-se prática
  2. A demanda por inferência explode e os data centers existentes não conseguem atendê-la. Isso já está começando a se desenrolar. Jensen Huang diz que a demanda por inferência está aumentando.aumentar “um bilhão de vezes”.
  3. Acordos de Nível de Serviço (SLAs) apropriados tornam-se disponíveis, abordando uma barreira crítica à adoção empresarial. Atualmente, a computação descentralizada opera com base no melhor esforço, deixando os usuários com diferentes níveis de qualidade de serviço (por exemplo, % de tempo de atividade). Com SLAs em vigor, essas redes poderiam oferecer métricas padronizadas de confiabilidade e desempenho, tornando a computação descentralizada uma alternativa viável aos fornecedores tradicionais de computação em nuvem.

Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.

Apesar da expansão contínua na cadeia de abastecimento de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.

Fique atento ao ponto de inflexão que poderá desencadear uma grande reclassificação de todos os mercados de GPUs em funcionamento. Provavelmente estará a chegar em breve.

Outras Notas:

  • O mercado exclusivo de GPUs está lotado, com competição entre plataformas descentralizadas e também oascensão dos neoclouds de IA da web2como Vast.ai e Lambda.
  • Pequenos nós (por exemplo, 4 x H100) não estão em grande procura devido ao seu uso limitado, mas boa sorte em encontrar alguém a vender grandes clusters - eles ainda estão em séria procura.
  • Um jogador dominante agregará todo o fornecimento de computação para protocolos descentralizados, ou permanecerá fragmentado entre vários mercados? Estou inclinado para o primeiro e uma distribuição de lei de potência nos resultados, pois a consolidação muitas vezes impulsiona a eficiência na infraestrutura. Mas levará tempo para se desenrolar e, enquanto isso, a fragmentação e a bagunça continuam.
  • Os desenvolvedores querem focar na construção de aplicativos, não lidar com implantação e configuração. Os mercados devem abstrair essas complexidades, tornando o acesso à computação o mais livre de atritos possível.

1.2. Treinamento Descentralizado

TL;dr

  • Se as leis de escalonamento forem válidas, treinar a próxima geração de modelos de IA de fronteira num único centro de dados tornar-se-á um dia impossível, fisicamente.
  • Treinar modelos de IA requer muita transferência de dados entre GPUs. A baixa velocidade de transferência de dados (interconexão) entre GPUs distribuídas é frequentemente a maior barreira.
  • Os pesquisadores estão explorando várias abordagens simultaneamente, e estão ocorrendo avanços (por exemplo, Open DiLoCo, DisTrO). Esses avanços se acumularão e se somarão, acelerando o progresso no espaço.
  • O futuro da formação descentralizada provavelmente reside em modelos mais pequenos e especializados projetados para aplicações de nicho, em vez de modelos focados em AGI de ponta.
  • A demanda de inferência está prestes a disparar com a mudança para modelos como o OpenAI’s o1, criando oportunidades para redes de inferência descentralizadas.

Imagine isto: um modelo de IA massivo e transformador, não desenvolvido em laboratórios de elite secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem guardiões centrais.

Neste futuro, os modelos em escala de fundação não são apenas o domínio dos principais laboratórios de IA.

Mas vamos ancorar esta visão na realidade de hoje. Por agora, a maior parte do treino de IA pesado continua ancorada em centros de dados centralizados, e provavelmente assim será durante algum tempo.

Empresas como a OpenAI estão a expandir as suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está perto de concluir um centro de dados com o equivalente a 200.000 GPUs H100.

Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida emO artigo PaLM do Googleem 2022 - acompanha quão efetivamente a capacidade máxima de uma GPU é usada. Surpreendentemente, o MFU frequentemente gira em torno de 35-40%.

Porque tão baixo? Enquanto o desempenho da GPU disparou ao longo dos anos seguindo a lei de Moore, as melhorias de rede, memória e armazenamento ficaram significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, esperando por dados.

O treinamento de IA ainda é altamente centralizado hoje por causa de uma palavra - Eficiência.

Treinar grandes modelos depende de técnicas como:

• Paralelismo de dados: Dividir conjuntos de dados em vários GPUs para realizar operações em paralelo, acelerando o processo de treino.

• Paralelismo de modelo: Distribuir partes do modelo entre as GPUs para contornar as restrições de memória.

Estes métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre os computadores da rede - absolutamente essencial.

Quando o treino do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.

Com suas interconexões de alta velocidade, os centros de dados centralizados permitem transferências rápidas de dados entre GPUs e criam economias substanciais de custo durante o tempo de treinamento que as configurações descentralizadas não podem igualar…ainda.

Superação da Velocidade Lenta de Interconexão

Se falares com pessoas que trabalham no espaço da IA, muitos dirão que o treino descentralizado simplesmente não funcionará.

Em setups descentralizados, clusters de GPU não estão fisicamente localizados no mesmo local, por isso a transferência de dados entre eles é muito mais lenta e torna-se um gargalo. O treino requer que as GPUs sincronizem e troquem dados em cada passo. Quanto mais distantes estiverem, maior será a latência. Maior latência significa velocidade de treino mais lenta e custos mais elevados.

O que poderia levar alguns dias num centro de dados centralizado poderia estender-se a duas semanas com uma abordagem descentralizada a um custo mais elevado. Simplesmente, isso não é viável.

Mas isso está prestes a mudar.

A boa notícia é que houve um enorme aumento de interesse na pesquisa em torno do treinamento distribuído. Os pesquisadores estão explorando várias abordagens simultaneamente, como evidenciado pela onda de estudos e artigos publicados. Esses avanços irão se acumular e se compor, acelerando o progresso no espaço.

Também se trata de testar em produção e ver até onde podemos chegar aos limites.

Algumas técnicas de treinamento descentralizadas já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.

  • Por exemplo, Prime Intellect’sabrir o papel DiCoLodemonstra uma abordagem prática que envolve “ilhas” de GPUs executando 500 passos locais antes da sincronização, reduzindo os requisitos de largura de banda em até 500 vezes. O que começou como pesquisa da Google DeepMind em modelos menores agora foi escalado para treinar um modelo de 10 bilhões de parâmetros em novembro - e totalmente disponibilizado hoje.
  • Nous Researchestá elevando o nível com a sua estrutura DisTrO, que utiliza otimizadores para proporcionar uma redução impressionante de até 10.000x nos requisitos de comunicação entre GPUs durante o treinamento de um modelo de 1,2 bilhão de parâmetros.
  • E o momentum continua a crescer. Em dezembro, a Nous anunciou a pré-treinamento de um modelo de 15B parâmetros com uma curva de perda (como o erro do modelo diminui ao longo do tempo) e uma taxa de convergência (a velocidade com que o desempenho do modelo se estabiliza) - que corresponde ou supera os resultados normalmente observados com configurações de treinamento centralizadas. Sim, melhor que centralizado.
  • Paralelismo SWARM e DTFMHE são outros métodos para treinar modelos de IA muito grandes em diferentes tipos de dispositivos, mesmo que esses dispositivos tenham velocidades e conexões variadas.

Outro desafio é gerenciar uma ampla gama de hardware de GPU, incluindo GPUs de consumo com memória limitada que são típicas em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.

O Futuro da Formação Descentralizada

Os métodos atuais de treinamento descentralizado ainda limitam os tamanhos dos modelos bem abaixo da fronteira (GPT-4 está relatadamente perto de um trilhão de parâmetros, 100 vezes maior do que o modelo de 10B do Prime Intellect). Para escalar verdadeiramente, precisaremos de avanços na arquitetura do modelo, melhor infraestrutura de rede e divisão mais inteligente de tarefas entre dispositivos.

E podemos sonhar grande. Imagine um mundo em que o treinamento descentralizado agregue mais poder de processamento de GPU do que os maiores centros de dados centralizados jamais poderiam reunir.

Pluralis Research (uma equipe afiada em treinamento descentralizado, para se observar de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão limitados por restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem aproveitar uma pool global de recursos efetivamente ilimitada.

Mesmo Jensen Huang da NVIDIA reconheceu quetreino descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.

Assim, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.

É uma perspectiva emocionante, mas ainda não estou totalmente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos é tecnicamente e economicamente viável.

Aqui está onde vejo um imenso potencial: o ponto ideal para treinamento descentralizado pode estar em modelos menores, especializados e de código aberto, projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultragrandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma opção natural para configurações descentralizadas.

E há mais uma peça neste puzzle: tokens. Quando o treino descentralizado se tornar viável em grande escala, os tokens poderão desempenhar um papel fundamental na incentivação e recompensa dos contribuidores, impulsionando eficazmente estas redes.

O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo as grandes empresas de tecnologia e os laboratórios de pesquisa de IA de primeiro nível — já que a escala dos modelos futuros ultrapassará a capacidade de um único centro de dados.

O futuro é distribuído. E quando uma tecnologia possui um potencial tão amplo, a história mostra que sempre melhora mais rápido do que qualquer um espera.

1.3. Inferência Descentralizada

Neste momento, a maioria do poder de computação em IA está a ser canalizada para treinar modelos maciços. Os principais laboratórios de IA estão numa corrida armamentista para desenvolver os melhores modelos fundamentais e, em última análise, alcançar a AGI.

Mas aqui está o meu ponto de vista: este intenso foco em computação no treinamento irá mudar para inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente, desde cuidados de saúde até entretenimento, os recursos computacionais necessários para suportar a inferência serão impressionantes.

E não é apenas especulação. A escala de computação em tempo de inferência é a mais recente palavra da moda em IA. A OpenAI lançou recentemente uma versão de pré-visualização/miniatura do seu último modelo, o1 (codinome: Morango), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder à pergunta, e depois passando por cada uma dessas etapas.

Este modelo é projetado para tarefas mais complexas e com mais planejamento, como resolver palavras cruzadas—e aborda problemas que requerem um raciocínio mais profundo. Vai notar que é mais lento, demorando mais tempo a gerar respostas, mas os resultados são muito mais ponderados e subtis. Também é muito mais caro de executar ( 25x o custo do GPT-4)

A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso de computação durante a inferência.

Se quiser ler mais, várias pesquisaspapéisdemonstrar:

  • Aumentar o cálculo da inferência através de amostragem repetida leva a grandes melhorias em várias tarefas.
  • Também existe uma lei de escala exponencial para a inferência.

Uma vez que os modelos poderosos são treinados, suas tarefas de inferência — onde os modelos realizam ações — podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:

  • A inferência consome muito menos recursos do que o treinamento. Uma vez treinados, os modelos podem ser compactados e otimizados usando técnicas como quantização, poda ou destilação. Eles podem até ser divididos com tensor ou paralelismo de pipeline para serem executados em dispositivos de consumo diário. Você não precisa de uma GPU high-end para alimentar a inferência.
  • Já está a acontecer.Exo Labsdescobriu como executar um modelo Llama3 de 450B parâmetros em hardware de consumo como MacBooks e Mac Minis. A distribuição da inferência em muitos dispositivos pode lidar até mesmo com cargas de trabalho em grande escala de forma eficiente e econômica.
  • Melhor experiência do utilizador. A execução de cálculos mais próxima do utilizador reduz a latência, o que é fundamental para aplicações em tempo real, como jogos, AR ou carros autónomos. Cada milissegundo conta.

Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para a IA: em vez de entregar websites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.

A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio de jogadores hardcore. O hardware que já temos é cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.

Valor Agregado da Cripto

Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados pelas suas contribuições computacionais. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para as tarefas de inferência e melhorando a tolerância a falhas.

E a melhor forma de construir redes descentralizadas? Cripto.

Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos trabalhem em direção ao mesmo objetivo: escalar a rede e aumentar o valor do token.

Os tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que paralisa a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.

O sucesso do Bitcoin e do Ethereum prova este ponto - eles já agregaram as maiores pools de poder de computação do planeta.

As redes de inferência descentralizadas são as próximas na fila. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais poderiam fazer.

  1. Este artigo é reproduzido a partir de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadeia de Pensamento](https://www.chainofthought.xyz/)\]. Todos os direitos autorais pertencem ao autor original [Teng Yan]. Se houver objeções a esta reimpressão, por favor entre em contato com o gate Learnequipa e eles tratarão disso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem qualquer conselho de investimento.
  3. As traduções do artigo para outros idiomas são feitas pela equipe de aprendizado da gate. A menos que mencionado, copiar, distribuir ou plagiar os artigos traduzidos é proibido.
Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!