Não me livrei desta grande falha.
Ainda me assombra porque era a aposta mais óbvia para qualquer pessoa atenta, no entanto, não investi um único dólar.
Não, não era o próximo Solana killer ou um memecoin com um cão usando um chapéu engraçado.
Foi… NVIDIA.
Preço das ações da NVDA desde o início do ano. Fonte: Google
Em apenas um ano, a NVDA triplicou de valor, passando de uma capitalização de mercado de $1T para $3T. Ela até superou o Bitcoin no mesmo período.
Claro, parte disso é exagero de IA. Mas uma grande parte disso está enraizada na realidade. A NVIDIA relatou $60B em receitas para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pelas Big Techs adquirindo GPUs em uma corrida armamentista global de IA para AGI.
Então, por que eu perdi isso?
Durante dois anos, estive totalmente focado em cripto e não olhei para o que estava a acontecer na área da IA. Foi um grande erro e ainda me incomoda.
Mas não estou a cometer o mesmo erro duas vezes.
Hoje, a Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. Os paralelos com a Corrida do Ouro da Califórnia do século XIX são difíceis de ignorar - indústrias e cidades surgiram durante a noite, a infraestrutura avançou a uma velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram arriscar.
Como a NVIDIA nos primeiros dias, a Crypto AI será óbvia em retrospectiva.
Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante de hoje para investidores e construtores.
Aqui está um breve resumo:
No seu âmago, Crypto AI é uma IA com infraestrutura criptográfica sobreposta. Isso significa que é mais provável que acompanhe a trajetória de crescimento exponencial da IA do que o mercado de criptografia em geral. Portanto, para se manter à frente, você precisa sintonizar as últimas pesquisas em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA:
Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetado para ser uma investigação exaustiva em todos os setores — isso é uma toca de coelho para outro dia.
Em vez disso, considere-o um roteiro de alto nível elaborado para despertar a curiosidade, aprimorar sua pesquisa e orientar o pensamento de investimento.
Eu imagino a pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertas em uma extremidade, que alimentam o treinamento descentralizado de modelos de IA.
Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos cripto-econômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente na cadeia, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.
As redes de coordenação unem tudo, permitindo uma comunicação e colaboração contínuas em todo o ecossistema.
Nesta visão, qualquer pessoa que esteja construindo em IA poderia aproveitar uma ou mais camadas deste conjunto, dependendo de suas necessidades específicas. Seja utilizando cálculos descentralizados para treinamento de modelos ou utilizando redes de avaliação para garantir saídas de alta qualidade, o conjunto oferece uma variedade de opções.
Graças à composabilidade inerente da blockchain, acredito que estamos naturalmente nos movendo em direção a um futuro modular. Cada camada está se tornando hiper-especializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada all-in-one.
Origem: topology.vc
Houve uma explosão cambriana de startups a serem construídas em todas as camadas da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.
O mapa mais abrangente e atualizado do panorama de startups de IA de criptomoedas que vi é mantido por Casey e sua equipe na topology.vc. É um recurso inestimável para qualquer pessoa que acompanhe o espaço.
Ao mergulhar nos subsectores de IA de Cripto, constantemente me pergunto: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou à procura de mercados que possam escalar para centenas de milhares de milhões.
Vamos começar com o tamanho do mercado. Ao avaliar um subsector, pergunto a mim mesmo: está a criar um mercado totalmente novo ou a perturbar um já existente?
Por exemplo, leve a computação descentralizada. É uma categoria disruptiva cujo potencial pode ser estimado ao olhar para o mercado estabelecido de computação em nuvem, no valor de ~$680B hojee espera-se atingir os $2.5T em 2032.
Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, avaliá-los envolve uma combinação de suposições educadas e verificações instintivas dos problemas que eles estão resolvendo. E a armadilha é que, às vezes, o que parece ser um novo mercado é realmente apenas uma solução em busca de um problema.
A sincronização é tudo. A tecnologia tende a melhorar e a ficar mais barata ao longo do tempo, mas o ritmo de progresso varia.
Quão madura é a tecnologia em um determinado sub-setor? Está pronta para escalar ou ainda está na fase de pesquisa, com aplicações práticas anos à frente? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de ‘esperar para ver’.
Tomemos a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lenta para uso generalizado. Provavelmente levará vários anos para que ela atinja a viabilidade mainstream. Ao focar em setores mais próximos da escalabilidade primeiro, posso gastar meu tempo e energia onde o ímpeto e a oportunidade estão se desenvolvendo.
Se eu tivesse que mapear essas categorias num gráfico de tamanho vs. tempo, seria algo parecido com isto. Tenha em mente que isto é mais um esboço conceptual do que um guia rígido e definitivo. Há muitas nuances, por exemplo, dentro da inferência verificável, diferentes abordagens como zkML e opML estão em diferentes níveis de prontidão para uso.
Dito isto, estou convencido de que a escala da IA será tão grande que mesmo o que parece “nicho” hoje poderá evoluir para um mercado significativo.
Vale também a pena notar que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes acontece em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.
Com este enquadramento em mente, vamos analisar cada sub-setor.
Várias equipas de IA de Cripto estão a posicionar-se para capitalizar a escassez de GPUs em relação à procura, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.
A proposta de valor central para os mercados de GPU é tripla:
Para abordar o lado da oferta do mercado, estes mercados calculam a partir de:
Por outro lado, a procura por computação descentralizada hoje provém de:
A coisa mais importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.
As startups neste espaço frequentemente exibem o tamanho das suas redes de fornecimento de GPU como sinal de sucesso. Mas isto é enganador - é, na melhor das hipóteses, uma métrica de vaidade.
A verdadeira restrição não é a oferta, mas a procura. As principais métricas a acompanhar não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs efetivamente alugadas.
Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da procura. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a procura latente se materialize.
Haseeb Qureshi (Dragonfly) coloca o melhor:
Contrariamente à crença popular, o maior obstáculo para os mercados de GPU distribuídos web3 hoje é simplesmente fazê-los funcionar corretamente.
Este não é um problema trivial.
Orquestrar GPUs através de uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, escalonamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gestão de latência, transferência de dados, tolerância a falhas e gestão de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.
Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e devidamente projetada.
Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão de ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes distribuídas de GPU. O próprio Kubernetes foi construído com base em mais de uma década de experiência do Google, e mesmo assim, levou anos de iteração implacável para acertar.
Algumas das plataformas de computação de GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso aconteça porque foram construídas sobre bases arquitetônicas mal projetadas.
Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que afirma. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser uma solução natural para sistemas de verificação sem confiança. Startups como Gensyn e Spheronestão buscando uma abordagem sem confiança para resolver essa questão.
Hoje em dia, muitas equipas web3 ainda estão a enfrentar estes desafios, o que significa que a oportunidade está completamente aberta.
Quão grande é o mercado de redes de computação descentralizadas?
Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda desde que os custos permaneçam mais baixos do que os dos provedores tradicionais.
Acredito que os custos irão permanecer mais baixos no curto a médio prazo devido a uma mistura de subsídios de tokens e a liberação de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu posso alugar meu laptop de jogos para ganhar dinheiro extra, estou feliz, seja $20 ou $50 por mês).
Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a verdadeira expansão de seu TAM - virá quando:
Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.
Apesar da expansão contínua na cadeia de abastecimento de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.
Fique atento ao ponto de inflexão que poderá desencadear uma grande reclassificação de todos os mercados de GPUs em funcionamento. Provavelmente estará a chegar em breve.
Imagine isto: um modelo de IA massivo e transformador, não desenvolvido em laboratórios de elite secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem guardiões centrais.
Neste futuro, os modelos em escala de fundação não são apenas o domínio dos principais laboratórios de IA.
Mas vamos ancorar esta visão na realidade de hoje. Por agora, a maior parte do treino de IA pesado continua ancorada em centros de dados centralizados, e provavelmente assim será durante algum tempo.
Empresas como a OpenAI estão a expandir as suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está perto de concluir um centro de dados com o equivalente a 200.000 GPUs H100.
Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida emO artigo PaLM do Googleem 2022 - acompanha quão efetivamente a capacidade máxima de uma GPU é usada. Surpreendentemente, o MFU frequentemente gira em torno de 35-40%.
Porque tão baixo? Enquanto o desempenho da GPU disparou ao longo dos anos seguindo a lei de Moore, as melhorias de rede, memória e armazenamento ficaram significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, esperando por dados.
O treinamento de IA ainda é altamente centralizado hoje por causa de uma palavra - Eficiência.
Treinar grandes modelos depende de técnicas como:
• Paralelismo de dados: Dividir conjuntos de dados em vários GPUs para realizar operações em paralelo, acelerando o processo de treino.
• Paralelismo de modelo: Distribuir partes do modelo entre as GPUs para contornar as restrições de memória.
Estes métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre os computadores da rede - absolutamente essencial.
Quando o treino do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.
Com suas interconexões de alta velocidade, os centros de dados centralizados permitem transferências rápidas de dados entre GPUs e criam economias substanciais de custo durante o tempo de treinamento que as configurações descentralizadas não podem igualar…ainda.
Se falares com pessoas que trabalham no espaço da IA, muitos dirão que o treino descentralizado simplesmente não funcionará.
Em setups descentralizados, clusters de GPU não estão fisicamente localizados no mesmo local, por isso a transferência de dados entre eles é muito mais lenta e torna-se um gargalo. O treino requer que as GPUs sincronizem e troquem dados em cada passo. Quanto mais distantes estiverem, maior será a latência. Maior latência significa velocidade de treino mais lenta e custos mais elevados.
O que poderia levar alguns dias num centro de dados centralizado poderia estender-se a duas semanas com uma abordagem descentralizada a um custo mais elevado. Simplesmente, isso não é viável.
Mas isso está prestes a mudar.
A boa notícia é que houve um enorme aumento de interesse na pesquisa em torno do treinamento distribuído. Os pesquisadores estão explorando várias abordagens simultaneamente, como evidenciado pela onda de estudos e artigos publicados. Esses avanços irão se acumular e se compor, acelerando o progresso no espaço.
Também se trata de testar em produção e ver até onde podemos chegar aos limites.
Algumas técnicas de treinamento descentralizadas já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.
Outro desafio é gerenciar uma ampla gama de hardware de GPU, incluindo GPUs de consumo com memória limitada que são típicas em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.
Os métodos atuais de treinamento descentralizado ainda limitam os tamanhos dos modelos bem abaixo da fronteira (GPT-4 está relatadamente perto de um trilhão de parâmetros, 100 vezes maior do que o modelo de 10B do Prime Intellect). Para escalar verdadeiramente, precisaremos de avanços na arquitetura do modelo, melhor infraestrutura de rede e divisão mais inteligente de tarefas entre dispositivos.
E podemos sonhar grande. Imagine um mundo em que o treinamento descentralizado agregue mais poder de processamento de GPU do que os maiores centros de dados centralizados jamais poderiam reunir.
Pluralis Research (uma equipe afiada em treinamento descentralizado, para se observar de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão limitados por restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem aproveitar uma pool global de recursos efetivamente ilimitada.
Mesmo Jensen Huang da NVIDIA reconheceu quetreino descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.
Assim, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.
É uma perspectiva emocionante, mas ainda não estou totalmente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos é tecnicamente e economicamente viável.
Aqui está onde vejo um imenso potencial: o ponto ideal para treinamento descentralizado pode estar em modelos menores, especializados e de código aberto, projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultragrandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma opção natural para configurações descentralizadas.
E há mais uma peça neste puzzle: tokens. Quando o treino descentralizado se tornar viável em grande escala, os tokens poderão desempenhar um papel fundamental na incentivação e recompensa dos contribuidores, impulsionando eficazmente estas redes.
O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo as grandes empresas de tecnologia e os laboratórios de pesquisa de IA de primeiro nível — já que a escala dos modelos futuros ultrapassará a capacidade de um único centro de dados.
O futuro é distribuído. E quando uma tecnologia possui um potencial tão amplo, a história mostra que sempre melhora mais rápido do que qualquer um espera.
Neste momento, a maioria do poder de computação em IA está a ser canalizada para treinar modelos maciços. Os principais laboratórios de IA estão numa corrida armamentista para desenvolver os melhores modelos fundamentais e, em última análise, alcançar a AGI.
Mas aqui está o meu ponto de vista: este intenso foco em computação no treinamento irá mudar para inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente, desde cuidados de saúde até entretenimento, os recursos computacionais necessários para suportar a inferência serão impressionantes.
E não é apenas especulação. A escala de computação em tempo de inferência é a mais recente palavra da moda em IA. A OpenAI lançou recentemente uma versão de pré-visualização/miniatura do seu último modelo, o1 (codinome: Morango), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder à pergunta, e depois passando por cada uma dessas etapas.
Este modelo é projetado para tarefas mais complexas e com mais planejamento, como resolver palavras cruzadas—e aborda problemas que requerem um raciocínio mais profundo. Vai notar que é mais lento, demorando mais tempo a gerar respostas, mas os resultados são muito mais ponderados e subtis. Também é muito mais caro de executar ( 25x o custo do GPT-4)
A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso de computação durante a inferência.
Se quiser ler mais, várias pesquisaspapéisdemonstrar:
Uma vez que os modelos poderosos são treinados, suas tarefas de inferência — onde os modelos realizam ações — podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:
Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para a IA: em vez de entregar websites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.
A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio de jogadores hardcore. O hardware que já temos é cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.
Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados pelas suas contribuições computacionais. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para as tarefas de inferência e melhorando a tolerância a falhas.
E a melhor forma de construir redes descentralizadas? Cripto.
Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos trabalhem em direção ao mesmo objetivo: escalar a rede e aumentar o valor do token.
Os tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que paralisa a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.
O sucesso do Bitcoin e do Ethereum prova este ponto - eles já agregaram as maiores pools de poder de computação do planeta.
As redes de inferência descentralizadas são as próximas na fila. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais poderiam fazer.
Não me livrei desta grande falha.
Ainda me assombra porque era a aposta mais óbvia para qualquer pessoa atenta, no entanto, não investi um único dólar.
Não, não era o próximo Solana killer ou um memecoin com um cão usando um chapéu engraçado.
Foi… NVIDIA.
Preço das ações da NVDA desde o início do ano. Fonte: Google
Em apenas um ano, a NVDA triplicou de valor, passando de uma capitalização de mercado de $1T para $3T. Ela até superou o Bitcoin no mesmo período.
Claro, parte disso é exagero de IA. Mas uma grande parte disso está enraizada na realidade. A NVIDIA relatou $60B em receitas para o FY2024, um aumento impressionante de 126% em relação a 2023. Esse crescimento foi impulsionado pelas Big Techs adquirindo GPUs em uma corrida armamentista global de IA para AGI.
Então, por que eu perdi isso?
Durante dois anos, estive totalmente focado em cripto e não olhei para o que estava a acontecer na área da IA. Foi um grande erro e ainda me incomoda.
Mas não estou a cometer o mesmo erro duas vezes.
Hoje, a Crypto AI parece estranhamente semelhante. Estamos à beira de uma explosão de inovação. Os paralelos com a Corrida do Ouro da Califórnia do século XIX são difíceis de ignorar - indústrias e cidades surgiram durante a noite, a infraestrutura avançou a uma velocidade vertiginosa e fortunas foram feitas por aqueles que ousaram arriscar.
Como a NVIDIA nos primeiros dias, a Crypto AI será óbvia em retrospectiva.
Em Parte I da minha tese, Expliquei por que a Cripto IA é a oportunidade mais emocionante de hoje para investidores e construtores.
Aqui está um breve resumo:
No seu âmago, Crypto AI é uma IA com infraestrutura criptográfica sobreposta. Isso significa que é mais provável que acompanhe a trajetória de crescimento exponencial da IA do que o mercado de criptografia em geral. Portanto, para se manter à frente, você precisa sintonizar as últimas pesquisas em IA no Arxiv e conversar com os fundadores que acreditam estar construindo a próxima grande coisa.
Na Parte II da minha tese, vou mergulhar em quatro dos subsectores mais promissores em Cripto IA:
Esta peça representa a culminação de semanas de pesquisa profunda e conversas com fundadores e equipes em todo o panorama da Cripto IA. Não foi projetado para ser uma investigação exaustiva em todos os setores — isso é uma toca de coelho para outro dia.
Em vez disso, considere-o um roteiro de alto nível elaborado para despertar a curiosidade, aprimorar sua pesquisa e orientar o pensamento de investimento.
Eu imagino a pilha de IA descentralizada como um ecossistema em camadas: começa com computação descentralizada e redes de dados abertas em uma extremidade, que alimentam o treinamento descentralizado de modelos de IA.
Cada inferência é então verificada - entradas e saídas igualmente - usando uma combinação de criptografia, incentivos cripto-econômicos e redes de avaliação. Essas saídas verificadas fluem para agentes de IA que podem operar autonomamente na cadeia, bem como aplicações de IA para consumidores e empresas que os usuários podem realmente confiar.
As redes de coordenação unem tudo, permitindo uma comunicação e colaboração contínuas em todo o ecossistema.
Nesta visão, qualquer pessoa que esteja construindo em IA poderia aproveitar uma ou mais camadas deste conjunto, dependendo de suas necessidades específicas. Seja utilizando cálculos descentralizados para treinamento de modelos ou utilizando redes de avaliação para garantir saídas de alta qualidade, o conjunto oferece uma variedade de opções.
Graças à composabilidade inerente da blockchain, acredito que estamos naturalmente nos movendo em direção a um futuro modular. Cada camada está se tornando hiper-especializada, com protocolos otimizados para funções distintas em vez de uma abordagem integrada all-in-one.
Origem: topology.vc
Houve uma explosão cambriana de startups a serem construídas em todas as camadas da pilha de IA descentralizada, a maioria fundada nos últimos 1 - 3 anos. Está claro: ainda estamos no início.
O mapa mais abrangente e atualizado do panorama de startups de IA de criptomoedas que vi é mantido por Casey e sua equipe na topology.vc. É um recurso inestimável para qualquer pessoa que acompanhe o espaço.
Ao mergulhar nos subsectores de IA de Cripto, constantemente me pergunto: qual é a dimensão da oportunidade aqui? Não estou interessado em apostas pequenas - estou à procura de mercados que possam escalar para centenas de milhares de milhões.
Vamos começar com o tamanho do mercado. Ao avaliar um subsector, pergunto a mim mesmo: está a criar um mercado totalmente novo ou a perturbar um já existente?
Por exemplo, leve a computação descentralizada. É uma categoria disruptiva cujo potencial pode ser estimado ao olhar para o mercado estabelecido de computação em nuvem, no valor de ~$680B hojee espera-se atingir os $2.5T em 2032.
Novos mercados sem precedentes, como agentes de IA, são mais difíceis de quantificar. Sem dados históricos, avaliá-los envolve uma combinação de suposições educadas e verificações instintivas dos problemas que eles estão resolvendo. E a armadilha é que, às vezes, o que parece ser um novo mercado é realmente apenas uma solução em busca de um problema.
A sincronização é tudo. A tecnologia tende a melhorar e a ficar mais barata ao longo do tempo, mas o ritmo de progresso varia.
Quão madura é a tecnologia em um determinado sub-setor? Está pronta para escalar ou ainda está na fase de pesquisa, com aplicações práticas anos à frente? O momento determina se um setor merece atenção imediata ou se deve ser deixado na categoria de ‘esperar para ver’.
Tomemos a Criptografia Totalmente Homomórfica (FHE) como exemplo: o potencial é inegável, mas hoje ainda é muito lenta para uso generalizado. Provavelmente levará vários anos para que ela atinja a viabilidade mainstream. Ao focar em setores mais próximos da escalabilidade primeiro, posso gastar meu tempo e energia onde o ímpeto e a oportunidade estão se desenvolvendo.
Se eu tivesse que mapear essas categorias num gráfico de tamanho vs. tempo, seria algo parecido com isto. Tenha em mente que isto é mais um esboço conceptual do que um guia rígido e definitivo. Há muitas nuances, por exemplo, dentro da inferência verificável, diferentes abordagens como zkML e opML estão em diferentes níveis de prontidão para uso.
Dito isto, estou convencido de que a escala da IA será tão grande que mesmo o que parece “nicho” hoje poderá evoluir para um mercado significativo.
Vale também a pena notar que o progresso tecnológico nem sempre segue uma linha reta - muitas vezes acontece em saltos. Minhas opiniões sobre timing e tamanho de mercado mudarão quando ocorrerem avanços emergentes.
Com este enquadramento em mente, vamos analisar cada sub-setor.
Várias equipas de IA de Cripto estão a posicionar-se para capitalizar a escassez de GPUs em relação à procura, construindo redes descentralizadas que aproveitam o pool global de potência de cálculo latente.
A proposta de valor central para os mercados de GPU é tripla:
Para abordar o lado da oferta do mercado, estes mercados calculam a partir de:
Por outro lado, a procura por computação descentralizada hoje provém de:
A coisa mais importante a lembrar: os desenvolvedores sempre priorizam custos e confiabilidade.
As startups neste espaço frequentemente exibem o tamanho das suas redes de fornecimento de GPU como sinal de sucesso. Mas isto é enganador - é, na melhor das hipóteses, uma métrica de vaidade.
A verdadeira restrição não é a oferta, mas a procura. As principais métricas a acompanhar não são o número de GPUs disponíveis, mas sim a taxa de utilização e o número de GPUs efetivamente alugadas.
Os tokens são excelentes para inicializar o lado da oferta, criando os incentivos necessários para escalar rapidamente. No entanto, eles não resolvem inerentemente o problema da procura. O verdadeiro teste é levar o produto a um estado suficientemente bom para que a procura latente se materialize.
Haseeb Qureshi (Dragonfly) coloca o melhor:
Contrariamente à crença popular, o maior obstáculo para os mercados de GPU distribuídos web3 hoje é simplesmente fazê-los funcionar corretamente.
Este não é um problema trivial.
Orquestrar GPUs através de uma rede distribuída é complexo, com camadas de desafios - alocação de recursos, escalonamento dinâmico da carga de trabalho, balanceamento de carga entre nós e GPUs, gestão de latência, transferência de dados, tolerância a falhas e gestão de hardware diversificado espalhado por várias geografias. Eu poderia continuar indefinidamente.
Para alcançar isso, é necessário um engenharia séria e uma arquitetura de rede robusta e devidamente projetada.
Para colocar em perspectiva, considere o Kubernetes do Google. É amplamente considerado o padrão de ouro para a orquestração de contêineres, automatizando processos como balanceamento de carga e escalonamento em ambientes distribuídos - desafios muito semelhantes aos enfrentados pelas redes distribuídas de GPU. O próprio Kubernetes foi construído com base em mais de uma década de experiência do Google, e mesmo assim, levou anos de iteração implacável para acertar.
Algumas das plataformas de computação de GPU que já estão ativas hoje podem lidar com cargas de trabalho em pequena escala, mas as falhas começam a aparecer assim que tentam escalar. Suspeito que isso aconteça porque foram construídas sobre bases arquitetônicas mal projetadas.
Outro desafio/oportunidade para redes de computação descentralizadas é garantir a confiabilidade: verificar se cada nó está realmente fornecendo a potência de computação que afirma. Atualmente, isso depende da reputação da rede e, em alguns casos, os provedores de computação são classificados por pontuações de reputação. A blockchain parece ser uma solução natural para sistemas de verificação sem confiança. Startups como Gensyn e Spheronestão buscando uma abordagem sem confiança para resolver essa questão.
Hoje em dia, muitas equipas web3 ainda estão a enfrentar estes desafios, o que significa que a oportunidade está completamente aberta.
Quão grande é o mercado de redes de computação descentralizadas?
Hoje, provavelmente é apenas uma pequena fração da indústria de computação em nuvem de $680B - $2.5T. No entanto, apesar do atrito adicional para os usuários, sempre haverá alguma demanda desde que os custos permaneçam mais baixos do que os dos provedores tradicionais.
Acredito que os custos irão permanecer mais baixos no curto a médio prazo devido a uma mistura de subsídios de tokens e a liberação de oferta por parte de usuários que não são sensíveis ao preço (por exemplo, se eu posso alugar meu laptop de jogos para ganhar dinheiro extra, estou feliz, seja $20 ou $50 por mês).
Mas o verdadeiro potencial de crescimento para redes de computação descentralizadas - e a verdadeira expansão de seu TAM - virá quando:
Computação descentralizada e sem permissão é a camada base - a infraestrutura fundamental - para um ecossistema de IA descentralizada.
Apesar da expansão contínua na cadeia de abastecimento de silício (ou seja, GPUs), acredito que estamos apenas no início da era da Inteligência da humanidade. Haverá uma demanda insaciável por computação.
Fique atento ao ponto de inflexão que poderá desencadear uma grande reclassificação de todos os mercados de GPUs em funcionamento. Provavelmente estará a chegar em breve.
Imagine isto: um modelo de IA massivo e transformador, não desenvolvido em laboratórios de elite secretos, mas trazido à vida por milhões de pessoas comuns. Jogadores, cujas GPUs normalmente geram explosões cinematográficas do Call of Duty, agora emprestam seu hardware para algo maior - um modelo de IA de código aberto e coletivamente de propriedade, sem guardiões centrais.
Neste futuro, os modelos em escala de fundação não são apenas o domínio dos principais laboratórios de IA.
Mas vamos ancorar esta visão na realidade de hoje. Por agora, a maior parte do treino de IA pesado continua ancorada em centros de dados centralizados, e provavelmente assim será durante algum tempo.
Empresas como a OpenAI estão a expandir as suas enormes clusters. Elon Musk recentemente anunciadoque o xAI está perto de concluir um centro de dados com o equivalente a 200.000 GPUs H100.
Mas não se trata apenas do número bruto de GPU. Utilização de FLOPS do modelo (MFU) - uma métrica introduzida emO artigo PaLM do Googleem 2022 - acompanha quão efetivamente a capacidade máxima de uma GPU é usada. Surpreendentemente, o MFU frequentemente gira em torno de 35-40%.
Porque tão baixo? Enquanto o desempenho da GPU disparou ao longo dos anos seguindo a lei de Moore, as melhorias de rede, memória e armazenamento ficaram significativamente para trás, criando gargalos. Como resultado, as GPUs frequentemente ficam ociosas, esperando por dados.
O treinamento de IA ainda é altamente centralizado hoje por causa de uma palavra - Eficiência.
Treinar grandes modelos depende de técnicas como:
• Paralelismo de dados: Dividir conjuntos de dados em vários GPUs para realizar operações em paralelo, acelerando o processo de treino.
• Paralelismo de modelo: Distribuir partes do modelo entre as GPUs para contornar as restrições de memória.
Estes métodos requerem GPUs para trocar dados constantemente, tornando a velocidade de interconexão - a taxa na qual os dados são transferidos entre os computadores da rede - absolutamente essencial.
Quando o treino do modelo de IA de fronteira pode custar mais de $1B, cada ganho de eficiência importa.
Com suas interconexões de alta velocidade, os centros de dados centralizados permitem transferências rápidas de dados entre GPUs e criam economias substanciais de custo durante o tempo de treinamento que as configurações descentralizadas não podem igualar…ainda.
Se falares com pessoas que trabalham no espaço da IA, muitos dirão que o treino descentralizado simplesmente não funcionará.
Em setups descentralizados, clusters de GPU não estão fisicamente localizados no mesmo local, por isso a transferência de dados entre eles é muito mais lenta e torna-se um gargalo. O treino requer que as GPUs sincronizem e troquem dados em cada passo. Quanto mais distantes estiverem, maior será a latência. Maior latência significa velocidade de treino mais lenta e custos mais elevados.
O que poderia levar alguns dias num centro de dados centralizado poderia estender-se a duas semanas com uma abordagem descentralizada a um custo mais elevado. Simplesmente, isso não é viável.
Mas isso está prestes a mudar.
A boa notícia é que houve um enorme aumento de interesse na pesquisa em torno do treinamento distribuído. Os pesquisadores estão explorando várias abordagens simultaneamente, como evidenciado pela onda de estudos e artigos publicados. Esses avanços irão se acumular e se compor, acelerando o progresso no espaço.
Também se trata de testar em produção e ver até onde podemos chegar aos limites.
Algumas técnicas de treinamento descentralizadas já podem lidar com modelos menores em ambientes de interconexão lenta. Agora, a pesquisa de fronteira está se esforçando para estender esses métodos para modelos cada vez maiores.
Outro desafio é gerenciar uma ampla gama de hardware de GPU, incluindo GPUs de consumo com memória limitada que são típicas em redes descentralizadas. Técnicas como paralelismo de modelo (dividindo camadas do modelo entre dispositivos) podem ajudar a tornar isso viável.
Os métodos atuais de treinamento descentralizado ainda limitam os tamanhos dos modelos bem abaixo da fronteira (GPT-4 está relatadamente perto de um trilhão de parâmetros, 100 vezes maior do que o modelo de 10B do Prime Intellect). Para escalar verdadeiramente, precisaremos de avanços na arquitetura do modelo, melhor infraestrutura de rede e divisão mais inteligente de tarefas entre dispositivos.
E podemos sonhar grande. Imagine um mundo em que o treinamento descentralizado agregue mais poder de processamento de GPU do que os maiores centros de dados centralizados jamais poderiam reunir.
Pluralis Research (uma equipe afiada em treinamento descentralizado, para se observar de perto) argumenta que isso não é apenas possível, é inevitável. Os centros de dados centralizados estão limitados por restrições físicas como espaço e o disponibilidade de energia, enquanto as redes descentralizadas podem aproveitar uma pool global de recursos efetivamente ilimitada.
Mesmo Jensen Huang da NVIDIA reconheceu quetreino descentralizado assíncronopoderia desbloquear o verdadeiro potencial da escala de IA. As redes de treinamento distribuído também são mais tolerantes a falhas.
Assim, em um futuro potencial, os modelos de IA mais poderosos do mundo serão treinados de forma descentralizada.
É uma perspectiva emocionante, mas ainda não estou totalmente convencido. Precisamos de evidências mais fortes de que o treinamento descentralizado dos maiores modelos é tecnicamente e economicamente viável.
Aqui está onde vejo um imenso potencial: o ponto ideal para treinamento descentralizado pode estar em modelos menores, especializados e de código aberto, projetados para casos de uso específicos, em vez de competir com os modelos de fronteira ultragrandes impulsionados por IA geral. Certas arquiteturas, especialmente modelos não-transformadores, já estão provando ser uma opção natural para configurações descentralizadas.
E há mais uma peça neste puzzle: tokens. Quando o treino descentralizado se tornar viável em grande escala, os tokens poderão desempenhar um papel fundamental na incentivação e recompensa dos contribuidores, impulsionando eficazmente estas redes.
O caminho para esta visão é longo, mas o progresso é profundamente encorajador. Avanços na formação descentralizada beneficiarão a todos — até mesmo as grandes empresas de tecnologia e os laboratórios de pesquisa de IA de primeiro nível — já que a escala dos modelos futuros ultrapassará a capacidade de um único centro de dados.
O futuro é distribuído. E quando uma tecnologia possui um potencial tão amplo, a história mostra que sempre melhora mais rápido do que qualquer um espera.
Neste momento, a maioria do poder de computação em IA está a ser canalizada para treinar modelos maciços. Os principais laboratórios de IA estão numa corrida armamentista para desenvolver os melhores modelos fundamentais e, em última análise, alcançar a AGI.
Mas aqui está o meu ponto de vista: este intenso foco em computação no treinamento irá mudar para inferência nos próximos anos. À medida que a IA se torna cada vez mais incorporada nas aplicações que usamos diariamente, desde cuidados de saúde até entretenimento, os recursos computacionais necessários para suportar a inferência serão impressionantes.
E não é apenas especulação. A escala de computação em tempo de inferência é a mais recente palavra da moda em IA. A OpenAI lançou recentemente uma versão de pré-visualização/miniatura do seu último modelo, o1 (codinome: Morango), e a grande mudança? Ele leva seu tempo para pensar, primeiro perguntando a si mesmo quais são as etapas que deve seguir para responder à pergunta, e depois passando por cada uma dessas etapas.
Este modelo é projetado para tarefas mais complexas e com mais planejamento, como resolver palavras cruzadas—e aborda problemas que requerem um raciocínio mais profundo. Vai notar que é mais lento, demorando mais tempo a gerar respostas, mas os resultados são muito mais ponderados e subtis. Também é muito mais caro de executar ( 25x o custo do GPT-4)
A mudança de foco é clara: o próximo salto no desempenho da IA não virá apenas do treinamento de modelos maiores, mas também da ampliação do uso de computação durante a inferência.
Se quiser ler mais, várias pesquisaspapéisdemonstrar:
Uma vez que os modelos poderosos são treinados, suas tarefas de inferência — onde os modelos realizam ações — podem ser transferidas para redes de computação descentralizadas. Isso faz tanto sentido porque:
Pense na inferência descentralizada como uma CDN (rede de entrega de conteúdo) para a IA: em vez de entregar websites rapidamente conectando-se a servidores próximos, a inferência descentralizada aproveita o poder de computação local para fornecer respostas de IA em tempo recorde. Ao abraçar a inferência descentralizada, os aplicativos de IA se tornam mais eficientes, responsivos e confiáveis.
A tendência é clara. O novo chip M4 Pro da Apple rivaliza com a NVIDIARTX 3070 Ti - uma GPU que, até recentemente, era o domínio de jogadores hardcore. O hardware que já temos é cada vez mais capaz de lidar com cargas de trabalho avançadas de IA.
Para que as redes de inferência descentralizadas tenham sucesso, deve haver incentivos econômicos convincentes para a participação. Os nós na rede precisam ser compensados pelas suas contribuições computacionais. O sistema deve garantir uma distribuição justa e eficiente das recompensas. A diversidade geográfica é essencial, reduzindo a latência para as tarefas de inferência e melhorando a tolerância a falhas.
E a melhor forma de construir redes descentralizadas? Cripto.
Os tokens fornecem um mecanismo poderoso para alinhar os interesses dos participantes, garantindo que todos trabalhem em direção ao mesmo objetivo: escalar a rede e aumentar o valor do token.
Os tokens também impulsionam o crescimento da rede. Eles ajudam a resolver o clássico problema do ovo e da galinha que paralisa a maioria das redes, recompensando os primeiros adotantes e incentivando a participação desde o primeiro dia.
O sucesso do Bitcoin e do Ethereum prova este ponto - eles já agregaram as maiores pools de poder de computação do planeta.
As redes de inferência descentralizadas são as próximas na fila. Com diversidade geográfica, elas reduzem a latência, melhoram a tolerância a falhas e aproximam a IA do usuário. E com incentivos cripto-alimentados, elas escalarão mais rápido e melhor do que as redes tradicionais poderiam fazer.