Переслати Оригінальний заголовок: Децентралізований розрахунок
Сьогоднішня стаття присвячена зародженню, але часто непорозумілому сектору децентралізованого обчислення в криптовалюті. Ми заглиблюємося у ландшафт інфраструктури штучного інтелекту, щоб зрозуміти, де децентралізовані альтернативи можуть реалістично конкурувати.
Ми досліджуємо такі питання: Чи може ASI навчатися на розподілених мережах? Які унікальні переваги пропонують криптовалютні мережі? І чому бездозволова інфраструктура обчислень може стати так само важливою для штучного інтелекту, як і Біткоїн для фінансів.
Один із загальних шаблонів, який ви помітите в статті, - це експоненційний ріст у всьому, що стосується ШІ - інвестицій, обчислень та можливостей. Це співпадає з відродженням на ринках криптовалют і у свідомості. Ми дуже зацікавлені в перетині цих двох великих технологічних хвиль.
Привіт!
У сонячний день в Мемфісі, Теннессі, шпигунський літак з гвинтовим пропелером повторно облітав над промисловою будівлею, його пасажири жваво фотографували споруди знизу. Це було не сцена з розвідки холодної війни, а з 2024 року. Цілью не було військове установлення або місце збагачення урану, а колишній завод побутової техніки, в якому зараз розміщений один з найпотужніших суперкомп'ютерів світу. Пасажирами не були іноземні агенти, а працівники конкуруючої компанії по обробці даних.
Кожні кілька десятиліть з'являється перетворююча технологія з потенціалом безсумнівно змінити траєкторію цивілізації. Що настає, це перегони між найпотужнішими суб'єктами світу, щоб першими реалізувати цю технологію. Винагороди настільки великі, а наслідки невдачі настільки руйнівні, що ці суб'єкти швидко мобілізують свій повний арсенал ресурсів - людські таланти та капітал - для володіння технологією.
У 20 столітті дві видатні технології відповідали цій визначенні - ядерні зброї та космічні дослідження. Гонка за оволодіння цими технологіями залучила наймогутніші національні держави. Перемоги Сполучених Штатів у обох змаганнях забезпечили їхній статус найбільшого світового супердержави, започаткувавши еру неперевершеного процвітання. Для переможених - нацистської Німеччини та Радянського Союзу - наслідки були руйнівними, навіть термінальними.
Великий завод K-25 площею 44 акри в Оук-Ридж, Теннессі, США, де був вироблений уран для першої ядерної зброї ( джерело)
Перемога Америки обійшлася величезною ціною. Проект Манхеттен коштував майже 2 мільярди доларів (приблизно 30 мільярдів доларів ураховуючи інфляцію) і залучав понад 120 000 людей - один на кожну тисячу американців. Космічна гонка вимагала ще більших ресурсів. Програма Аполлон коштувала 28 мільярдів доларів у 1960-х роках (приблизно 300 мільярдів доларів за сьогоднішніми показниками) і залучала понад 400 000 осіб - одну на 490 американців. У 1966 році NASA контролювала 4,4% всього федерального бюджету США.
Аполлон 11, щойно перед зльотом на місячну місію ( джерело)
Запуск ChatGPT в 2022 році позначив настання нової гонки з розмірами, що змінюють цивілізацію - преслідування штучного суперінтелекту (ASI). В той час як штучний інтелект вже переплітається з повсякденним життям - управління соціальними медіа, рекомендації Netflix та фільтри для спаму електронної пошти - поява великих мовних моделей (LLM) обіцяє перетворити все: людську продуктивність, створення засобів масової інформації, наукові дослідження та саму інновацію.
Цього разу претендентами виступають не національні держави (принаймні, поки що), а найбільші світові корпорації (Microsoft, Google, Meta, Amazon), найгарячіші стартапи (OpenAI, Anthropic) та найбагатша людина (Ілон Маск). У той час як Big Tech спрямовує безпрецедентний капітал на створення інфраструктури для навчання все більш потужних моделей, стартапи забезпечують безпеку рекорднийфінансування венчурного капіталу. Елон, ну, робити речі Елона (дата-центр під наглядом належав його компанії, xAI).
Крім того, є всі інші — підприємства, менші компанії та стартапи — які, можливо, не прагнуть створити ASI, але прагнуть використовувати передові можливості, розблоковані штучним інтелектом, щоб оптимізувати свій бізнес, змінити галузь або створити абсолютно нову. Потенційні вигоди настільки великі, що кожен намагається претендувати на свою частку в цій новій економіці, керованій машинним інтелектом.
У самому серці революції штучного інтелекту лежить його найважливіший компонент: графічний процесор (GPU). Спочатку розроблений для прискорення графіки відеоігор, цей спеціалізований комп'ютерний чіп став найгарячішою товарною позицією у світі. Попит на GPU настільки потужний, що компанії часто стикаються зі значними труднощами місяці довгих списків очікуваннятільки щоб отримати кілька. Це попит привів NVIDIA, їх основного виробника, до позиції найціннішої компанії у світі.
Для бізнесів, які не мають можливості або не бажають безпосередньо купувати GPU, оренда обчислювальної потужності стала найкращою альтернативою. Це сприяло зростанню провайдерів хмарного AI - компаній, що працюють зі складними дата-центрами, розробленими для задоволення обчислювальних потреб AI-буму. Однак, зростання попиту та його непередбачуваної природи означає, що ні цінова ні наявність не є гарантією.
Ясперечалисятим, як криптовалюта функціонує як «Коазіанська» технологія, створена для «змащування коліс, будівництва доріг і зміцнення мостів» для розвитку інших революційних інновацій. З появою ШІ як перетворюючої сили нашої ери, нестача та надмірні витрати на доступ до ГПУ становлять бар'єр для інновацій. Кілька криптовалютних компаній втручаються з метою зрушення цих бар'єрів за допомогою стимулів на основі блокчейну.
У сьогоднішній статті ми спочатку відступимо від криптовалют, щоб розглянути основи сучасної інфраструктури ШІ - як нейронні мережі вчаться, чому ГПУ стали невід'ємною частиною і як центри обробки даних сьогодні еволюціонують, щоб задовольнити непередбачувані обчислювальні вимоги. Потім ми поглиблюємося в децентралізовані рішення для обчислень, досліджуючи, де вони реалістично можуть конкурувати з традиційними провайдерами, унікальні переваги, які пропонують мережі криптовалют і чому, хоча вони не дають нам загального інтелекту, вони все ж будуть невід'ємною частиною забезпечення того, що переваги ШІ залишаються доступними для всіх.
Давайте почнемо з того, чому в першу чергу велике значення мають графічні процесори (GPUs).
Це Давид, 17-футова, 6-тонна мармурова скульптура, створена геніальним італійським маестро епохи Відродження Мікеланджело. Вона зображує біблійного героя з історії про Давида і Голіафа і вважається шедевром за бездоганне відтворення анатомії людини та майстерний погляд на перспективу й деталі.
Як і всі мармурові скульптури, Давід почався як величезна, груба плита мармуру Карра. Щоб досягти його кінцевої, величної форми, Мікеланджело мусив систематично відлущувати камінь. Починаючи з широких, сміливих рухів, щоб створити основну людську форму, він перейшов до все більш дрібних деталей - кривизни м'яза, напруженості вени, тонкого вираження рішучості в очах. Мікеланджело знадобилося три роки, щоб визволити Давида із каменю.
Але чому обговорювати мармурову фігуру, яка має 500 років, у статті про штучний інтелект?
Як і Девід, кожна нейронна мережа починається як чистий потенціал - збірка вузлів, ініціалізованих випадковими числами (ваги), така ж безформна, як той великий блок мармуру Каррара.
Ця необроблена модель багаторазово подається навчальним даним — незліченним екземплярам вхідних даних у поєднанні з їхніми правильними виходами. Кожна точка даних, що проходить через мережу, запускає тисячі обчислень. У кожному вузлі (нейроні) вхідні зв'язки множать вхідне значення на вагу з'єднання, підсумовують ці добутки і перетворюють результат за допомогою «активаційної функції», яка визначає силу збудження нейрона.
Так само, як Мікеланджело відступає, оцінює свою роботу і коригує її, нейронні мережі проходять процес удосконалення. Після кожного проходу мережа порівнює свій вихід з правильною відповіддю та обчислює свою межу помилки. За допомогою процесу зворотного поширення помилки вона вимірює, на скільки кожне з'єднання сприяє помилці і, подібно до ударів молотком Мікеланджело, коригує значення. Якщо з'єднання призводить до неправильного прогнозування, його вплив зменшується. Якщо воно допомагає досягти правильної відповіді, то його вплив зміцнюється.
Коли всі дані проходять через мережу (завершуючи один крок прямого та зворотного поширення для кожної точки даних), це позначає кінець "епохи". Цей процес повторюється кілька разів, із кожним проходом уточнюючи розуміння мережі. Під час ранніх епох зміни ваги є драматичними, оскільки мережа робить широкі корекції - як перші жорсткі удари різця. У пізніших епохах зміни стають більш тонкими, налаштовуючи з'єднання для оптимальної продуктивності - так само, як дрібні останні штрихи виносять деталі Давида.
Нарешті, після тисяч або мільйонів ітерацій, навчена модель виходить на передній план. Схоже на те, що Девід стоїть гордо у своїй завершеній формі, нейронна мережа перетворюється з випадкового шуму в систему, здатну впізнавати патерни, робити прогнози, генерувати зображення котів, що їздять на самокатах, або давати змогу комп'ютерам розуміти та відповідати людською мовою.
Микеланджело, працюючи самотужки над Давідом, міг зробити лише один удар в розпилювач, кожен з яких вимагав точних розрахунків кута, сили та положення. Ця мукотривка точність - величезна причина того, чому йому знадобилося три безперервні роки, щоб завершити своє шедевр. Але уявіть, як тисячі рівносильних скульпторів працюють над Давідом в ідеальній координації - одна команда на кучері, інша на м'язи торса, а сотні більше на витончені деталі обличчя, рук і ніг. Такий паралельний зусилля стиснули б ці три роки в просто дні.
Так само, хоча ЦП є потужними та точними, вони можуть виконувати тільки один обчислення одночасно. Навчання нейронної мережі не потребує одного складного обчислення, а сотні мільйонів простих - в основному множення та додавання в кожному вузлі. Наприклад, згадана раніше нейронна мережа з всього 18 вузлами та близько 100 з'єднань (параметрів) може бути навчена на ЦП протягом прийнятного часу.
Однак, найпотужніші сьогодні моделі, такі як GPT-4 від OpenAI, мають 1,8 трильйонів параметрів! Навіть менші сучасні моделі містять принаймні мільярд параметрів. Навчання цих моделей по одному обчисленню зайняло б століття. Саме тут високопродуктивні графічні прискорювачі виявляються на висоті: вони можуть виконувати велику кількість простих математичних обчислень одночасно, що робить їх ідеальними для обробки кількох вузлів нейромереж одночасно.
Сучасні графічні процесори є приголомшливо потужними. Наприклад, найновіший графічний процесор NVIDIA B200 складається з понад 200 мільярдів транзисторів і підтримує 2250 трильйонів паралельних обчислень на секунду (2250 TFLOPS). Один графічний процесор B200 може працювати з моделями з параметрами до 740 мільярдів. Ці машини є досягненням сучасної інженерної думки, що пояснює, чому NVIDIA, продаючи кожну одиницю за ціною 40 000 доларів, за п'ять років ціна її акцій зросла більш ніж на 2 500%.
Дженсен Хуанг представляє NVIDIA B200
Однак, навіть ці вражаючі машини не можуть навчати моделі ШІ самостійно. Нагадаємо, що під час навчання кожен екземпляр даних повинен проходити через модель на кожному кроці вперед і назад окремо. Сучасні великі мовні моделі (LLM) навчаються на наборах даних, що охоплюють всю Інтернет. GPT-4, наприклад, обробив орієнтовно 12 трлн. токенів (приблизно 9 трлн. слів), і очікується, що наступне покоління моделей зможе обробляти до 100 трлн. токенів. Використання однієї GPU для такого великого обсягу даних все одно займатиме століття.
Рішення полягає в додаванні ще одного рівня паралелизму - створення кластерів GPU, де завдання навчання розподіляються серед численних GPU, що працюють як єдина система. Навчальні навантаження моделі можуть бути паралельно розподілені трьома способами:
Паралелизм даних: Кілька GPU кожен зберігає повну копію моделі нейронної мережі під час обробки різних частин навчальних даних. Кожен GPU обробляє свій призначений пакет даних незалежно перед періодичною синхронізацією з усіма іншими GPU. Під час цієї синхронізації GPU взаємодіють один з одним для знаходження колективного середнього їхніх ваг та потім оновлюють свої індивідуальні ваги так, що вони всі ідентичні. Внаслідок цього вони продовжують тренування на своєму наборі даних індивідуально, перш ніж знову синхронізуватися.
У міру того, як моделі стають більшими, одна копія може стати занадто великою, щоб поміститися на одному графічному процесорі. Наприклад, новітній графічний процесор B200 може містити лише 740 мільярдів параметрів, тоді як GPT-4 є моделлю з 1,8 трильйона параметрів. Паралелізм даних на окремих графічних процесорах у цьому випадку не працює.
Тензорний паралелізм: Цей підхід вирішує проблему обмеження пам'яті, розподіляючи роботу та вагу кожного шару моделі між кількома графічними процесорами. Графічні процесори обмінюються проміжними обчисленнями з усім кластером під час кожного кроку прямого та зворотного поширення. Ці графічні процесори зазвичай групуються в сервери по вісім одиниць, підключених через NVLink — високошвидкісне пряме з'єднання графічного процесора з графічним процесором NVIDIA. Для цього потрібна висока пропускна здатність (до 400 Гбіт/с) і з'єднання з низькою затримкою між графічними процесорами. Тензорний кластер ефективно функціонує як єдиний масивний графічний процесор.
Pipeline Parallelism: Цей метод розбиває модель на кілька GPU, при цьому кожен GPU обробляє певні шари. Дані проходять через ці GPU послідовно, як естафетний біг, де кожен бігун (GPU) керує своєю часткою перед передачею естафети. Паралелізм конвеєра особливо ефективний для підключення різних 8-графічних серверів в межах центру обробки даних, використовуючи високошвидкісні мережі InfiniBand для міжсерверної комунікації. Хоча його вимоги до комунікації перевищують паралелізм даних, вони залишаються нижчими, ніж інтенсивні обміни GPU в паралелізмі тензорів.
Масштаби сучасних кластерів вражають. GPT-4 з 1,8 трлн параметрів і 120 шарів потребував 25 000 A100 GPU для навчання. Процес зайняв три місяці і коштував понад 60 млн доларів. A100 - це дві покоління технології назад; використання сьогоднішніх GPU B200 потребувало б лише близько 8 000 одиниць і 20 днів навчання. Ще одна демонстрація того, наскільки швидко розвивається штучний інтелект.
Але клас моделей GPT-4 зараз є старими іграшками. Навчання для наступного покоління передових моделей вже ведеться в центрах обробки даних, де розміщені кластери з 100 000 GPU B100 або H100 (останній є поколінням старшим). Ці кластери, що представляють понад 4 мільярди доларів лише на капітальні витрати на GPU, є найпотужнішими суперкомп'ютерами людства, які забезпечують щонайменше чотириразову обчислювальну потужність у порівнянні з урядовими суперкомп'ютерами.
Крім забезпечення опрацювання даних, аспіранти ASI зіштовхуються з іншою проблемою при спробі налаштувати ці кластери: електроенергія. Кожна з цих відеокарт споживає 700 Вт енергії. Коли ви комбінуєте 100 000 з них, весь кластер (включаючи підтримуюче обладнання) споживає понад 150 МВт електроенергії. Щоб уявити собі це, це споживання енергії дорівнює споживанню енергії міста з населенням 300 000 осіб - що порівнюється з Новим Орлеаном або Цюрихом.
На цьому божевілля не закінчується. Більшість претендентів на ASI вважають, що Закони масштабування LLM— які свідчать про те, що продуктивність моделі передбачувано покращується зі збільшенням розміру моделі, розміру набору даних і навчальних обчислень, — залишаться актуальними. Вже в планах тренувальні запуски ще більш потужних моделей. За прогнозами, до 2025 року вартість кожного навчального кластера перевищить $10 млрд. До 2027 року понад 100 мільярдів доларів. У міру того, як ці цифри наближаються до інвестицій уряду США в програми «Аполлон», стає зрозуміло, чому досягнення ASI стало визначальною гонкою нашої епохи.
Метрики для моделей, що починаються з GPT-5, є оцінками
Оскільки споживання електроенергії зростає пропорційно розмірам кластерів, тренувальні прогони наступного року вимагатимуть понад 1 ГВт потужності. Через рік це буде 10 ГВт або більше. Немає показників того, що це збільшення сповільниться, тому очікується, що центри обробки даних споживатимуть приблизно 4.5% всесвітнього вироблено до 2030 року. Існуючі електричні мережі, вже має проблеми з поточними вимогами моделі, не може забезпечити достатню енергію для майбутніх кластерів. Це породжує важливе питання: звідки буде братися ця енергія? Big Tech використовує двохпронговий підхід.
У довгостроковій перспективі єдиним життєздатним рішенням є те, щоб аспіранти ASI генерували власну електроенергію. З урахуванням їхніх кліматичних зобов'язань ця енергія повинна надходити з відновлюваних джерел. Ядерна енергія виділяється як основне рішення. Amazon недавно придбанокомплекс центрів обробки даних, який працює на ядерній електростанції, за $650 мільйонів. Microsoftнайняв на роботуголова ядерних технологій та євідродження історичної електростанції Трі-Майл-Айленд. У Google є придбав кілька малих ядерних реакторів від каліфорнійської компанії Kairos Power. Сем Альтман з OpenAI підтримав енергетичні стартапи, такі як Helion, Exowatt, та Oklo.
Корпорація Майкрософт знову відкриває атомну електростанцію Три-Майл-Айленд (джерело зображення)
Водночас нараз сіються насіння ядерної енергії, але її плоди (або потужність) з'являться лише через кілька років. Що нарахунок енергетичних вимог для негайного створення моделей? Тимчасове рішення полягає в розподіленому тренуванні по декількох центрах обробки даних. Замість концентрації великих потреб у потужності в одному місці, компанії, такі як Microsoft і Google, розподіляють свої тренувальні кластери по декількох сайтах.
Звісно, викликом є ефективне забезпечення спільної роботи цих розподілених систем. Навіть ізі швидкістю світла дані займають приблизно 43 мс на повний шлях від східного до західного узбережжя США - в електронних термінах це вічність. Крім того, якщо навіть один чіп відстає, скажімо, на 10%, це призводить до сповільнення всього процесу навчання на той самий показник.
Рішення полягає в об'єднанні центрів обробки даних на декількох об'єктах за допомогою високошвидкісних оптоволоконних мереж і застосуванні комбінації методів паралелізму, розглянутих раніше, для синхронізації їх операцій. Тензорний паралелізм застосовується до графічних процесорів у кожному сервері, що дозволяє їм функціонувати як єдине ціле. Паралелізм конвеєрів з його нижчими вимогами до мережі використовується для зв'язку серверів в одному центрі обробки даних. Нарешті, центри обробки даних у різних місцях (так звані «острови») періодично синхронізують свою інформацію, використовуючи паралелізм даних.
Раніше ми відзначили, що паралельне оброблення даних виявляється неефективним для окремих GPU, оскільки вони не можуть незалежно розміщувати великі моделі. Однак ця динаміка змінюється, коли ми паралелізуємо острови - кожен з них містить тисячі GPU - а не окремі блоки. Навчальні дані розподіляються по кожному острову, і ці острови періодично синхронізуються через відносно повільні (порівняно з NVLink та Infiniband) оптичні волоконні з'єднання.
Давайте змінимо нашу увагу з навчання і графічних процесорів на самі центри обробки даних.
Двадцять років тому Amazon запустив Amazon Web Services (AWS) - один з найбільш трансформаційних бізнесів в історії - і створив цілком нову галузь, відому як хмарні обчислення. Сьогоднішні лідери у сфері хмарних послуг (Amazon, Microsoft, Google та Oracle) насолоджуються комфортним гегемонізмом, заробляючи разом річний дохід практично 300 мільярдів доларів з маржами 30-40%. Зараз поява штучного інтелекту створює нові можливості на ринку, який протягом багатьох років залишався переважно олігополістичним.
Фізичні вимоги, технічна складність та економіка центрів обробки даних з використанням AI з використанням GPU відрізняються від їх традиційних аналогів.
Ми раніше обговорювали, наскільки енергоефективними є відеокарти. Це призводить до того, що штучні інтелектуальні центри обробки даних стають набагато більш потужними та, відповідно, виробляють більше тепла. У той час як традиційні центри обробки даних використовують гігантські вентилятори (повітряне охолодження), щоб розсіяти тепло, цей підхід не є достатнім або фінансово доцільним для інтелектуальних центрів обробки даних. Замість цього, інтелектуальні центри обробки даних використовують системи рідкісного охолодження, де водяні блоки прямо приєднуються до відеокарт та інших гарячих компонентів, щоб ефективніше та тихіше розсіяти тепло. (Відеокарти B200 мають цю архітектуру вбудовану). Підтримка систем рідкісного охолодження потребує додавання великих веж охолодження, централізованої системи водопостачання та трубопроводів для транспортування води до та від всіх відеокарт - фундаментальні зміни інфраструктури центру обробки даних.
Поза вищою абсолютною споживанням енергії, центри обробки даних штучного інтелекту мають відмінні вимоги до навантаження. Тоді як традиційні центри обробки даних зберігають передбачуване споживання електроенергії, паттерни використання енергії для робочого навантаження ШІ є набагато більш волатильними. Ця волатильність виникає через те, що GPU періодично перемикається між роботою на 100% потужності та сповільненням до майже зупинки, коли тренування досягає контрольних точок, де ваги зберігаються у пам'яті або, як ми бачили раніше, синхронізуються з іншими островами. Центри обробки даних ШІ потребують спеціалізованої електроінфраструктури для управління цими коливаннями навантаження.
Побудова кластерів з графічними процесорами (GPU) набагато складніша, ніж побудова звичайних хмар обчислювальних систем. Графічним процесорам необхідно дуже швидко спілкуватися між собою. Для цього вони повинні бути дуже щільно упаковані. Типова інфраструктура для штучного інтелекту потребує понад 200 000 спеціальних кабелів, відомих як з'єднання InfiniBand. Ці кабелі дозволяють GPU спілкуватися один з одним. Якщо хоча б один кабель перестає працювати, вся система зупиняється. Процес навчання не може продовжуватися, поки цей кабель не відремонтують.
Ці вимоги до інфраструктури роблять практично неможливим модернізацію традиційних центрів обробки даних з високопродуктивними графічними прискорювачами для підготовки до штучного інтелекту. Таке оновлення вимагало б практично повної структурної перебудови. Замість цього компанії будують нові центри обробки даних, спеціально призначені для штучного інтелекту, з нуля, різні організації реалізують це в різних масштабах.
Провідні технологічні компанії змагаються за створення власних центрів обробки даних зі штучним інтелектом. Meta інвестує значні кошти в об'єкти виключно для власної розробки штучного інтелекту, розглядаючи це як пряму капітальну інвестицію, оскільки вона не пропонує хмарних сервісів. Корпорація Майкрософт будує такі ж величезні центри для забезпечення як власних проєктів штучного інтелекту, так і обслуговування ключових клієнтів, таких як OpenAI. Oracle також агресивно увійшла в цей простір, забезпечивши OpenAI як помітного клієнта. Amazon продовжує розширювати свою інфраструктуру, зокрема для підтримки нових компаній зі штучним інтелектом, таких як Anthropic. xAI Ілона Маска, не бажаючи покладатися на іншу компанію, вирішив побудувати власний кластер на 100 000 GPU.
Усередині 100 000 H100 GPU дата-центру xAI (gateджерело)
Поряд зі старожилами з'являються «neoclouds» - спеціалізовані постачальники хмар, що фокусуються виключно на обчисленнях GPU для робочих навантажень зі штучним інтелектом. Ці neoclouds поділяються на дві відмінні категорії за масштабом.
Великі постачальники хмарних послуг, включаючи CoreWeave, Крузоі LLama Labs, керують кластерами з понад 2 000 графічних процесорів. Вони відрізняються від традиційних хмарних сервісів двома аспектами: пропонуючи індивідуальні інфраструктурні рішення, а не стандартизовані пакети, і вимагаючи довгострокових зобов'язань для клієнтів замість домовленостей про оплату за використання.
Їхня бізнес-модель використовує ці довгострокові угоди та кредитоспроможність клієнтів для забезпечення фінансування інфраструктури. Дохід надходить від преміальних ставок, що стягуються за спеціалізовані послуги, і прибутку від спреду між низькими витратами на фінансування та платежами клієнтів.
Ось як зазвичай працює така домовленість: неохмарний провайдер укладає трирічний контракт із добре фінансованим стартапом зі штучного інтелекту на 10 000 графічних процесорів H100 за 40 мільйонів доларів щомісяця. Використовуючи цей гарантований потік доходів у розмірі 1,44 мільярда доларів, провайдер забезпечує вигідне банківське фінансування (під 6%) для придбання та встановлення інфраструктури вартістю 700 мільйонів доларів. Щомісячний дохід у розмірі 40 мільйонів доларів покриває 10 мільйонів доларів операційних витрат і 20 мільйонів доларів у вигляді платежів за кредитами, приносячи 10 мільйонів доларів щомісячного прибутку, тоді як стартап отримує спеціально створені виділені обчислювальні потужності.
Дана модель вимагає виключно ретельного відбору покупця. Постачальники зазвичай шукають компанії з великими грошовими резервами або сильною венчурною підтримкою, часто з оцінкою в 500 мільйонів доларів США або більше.
Невеликі неохмари пропонують кластери GPU з 2 000 або менше і обслуговують окремий сегмент ринку штучного інтелекту — малі та середні стартапи. Ці компанії або навчають менші моделі (до 70 мільярдів параметрів), або тонко налаштовують моделі з відкритим вихідним кодом. (Тонке налаштування — це процес адаптації базової моделі до конкретних випадків використання.) Обидва ці робочі навантаження вимагають помірних, але виділених обчислень протягом коротших періодів часу.
Ці провайдери пропонують обчислення на вимогу з годинними тарифами для безперервного доступу до кластеру на фіксований термін. Хоча це коштує більше, ніж довгострокові контракти, воно дає стартапам можливість експериментувати без зобов'язання укладати мультимільйонні угоди.
Нарешті, окрім головних хмарних постачальників та нових хмарних постачальників, у нас є посередники в галузі інфраструктури ШІ: платформи та агрегатори. Ці посередники не володіють інфраструктурою GPU, а замість цього з'єднують власників обчислювальних ресурсів з тими, хто їх потребує.
Провайдери платформи, такі як HydraHostтаFluidstackдіяти як Shopify для обчислення на ГПУ. Точно так само, як Shopify дозволяє продавцям запускати онлайн-магазини без побудови експлуатаційної інфраструктури, ці платформи дозволяють операторам центрів обробки даних та власникам ГПУ надавати обчислювальні послуги без розробки власних інтерфейсів для клієнтів. Вони надають повний технічний пакет для запуску бізнесу з обчислення на ГПУ, включаючи засоби управління інфраструктурою, системи надання послуг клієнтам та рішення щодо розрахунків.
Агрегатори ринков, такі як gate.io Vast.aiфункціонувати як Amazon у світі GPU. Вони створюють майданчик, що поєднує різноманітні обчислювальні пропозиції від різних постачальників - від карт RTX для споживачів до професійних GPU H100. Власники GPU вказують свої ресурси з детальними показниками продуктивності та рейтингами надійності, а клієнти купують час обчислення через самообслуговування.
До цього моменту наша дискусія була спрямована на навчання (або налаштування) моделей. Однак, після навчання, модель потрібно розгорнути для обслуговування кінцевих користувачів - процес, який називається інференцією. Кожного разу, коли ви спілкуєтеся з ChatGPT, ви використовуєте GPU, що запускає робочі навантаження інференції, які отримують ваш вхід та генерують відповідь моделі. Давайте повернемося до обговорення мармурових статуй на хвилину.
Це також Девід — не оригінал Мікеланджело, але гіпсовий відлиток, замовлений королевою Вікторією в 1857 році для лондонського музею Вікторії та Альберта. Поки Мікеланджело три важкі роки уважно обтачував мармур, щоб створити оригінал у Флоренції, цей гіпсовий відлиток був зроблений безпосередньо з відбитка статуї — ідеально відтворюючи кожну криву, кут і деталь, яку створив Мікеланджело. Інтенсивна творча робота відбулася один раз. Після цього стало питанням вірно відтворити ці риси. Сьогодні репліки Девіда з'являються всюди — від музейних зал до внутрішніх дворів казино Лас-Вегасу.
Точно так працює виведення в штучному інтелекті. Тренування великої мовної моделі схоже на оригінальний скульптурний процес Мікеланджело — обчислювально інтенсивний, часом затратний і вимагає багато ресурсів, оскільки модель поступово вивчає правильну «форму» мови через мільйони дрібних корекцій. Але використання навченої моделі — це виведення — більше схоже на створення репліки. Коли ви спілкуєтеся з ChatGPT, ви не навчаєте його мови з нуля, а використовуєте копію моделі, параметри якої (наприклад, точні криві та кути Давида) вже були вдосконалені.
Робочі навантаження виведення фундаментально відрізняються від навчання. Під час навчання потрібні великі, щільні кластери останніх відеокарт, таких як H100, для обробки інтенсивних обчислень, тоді як виведення може виконуватися на однопроцесорних серверах з використанням старіших обладнання, таких як A100 або навіть відеокарти для споживачів, що робить його значно більш ефективним з точки зору витрат. З огляду на це, робочі навантаження виведення мають свої власні унікальні вимоги:
Ці характеристики роблять робочі навантаження висновків ідеальними для моделей спотового ціноутворення. За спотовим ціноутворенням ресурси графічного процесора доступні зі значними знижками — часто на 30-50% нижчими за тарифи на вимогу — з розумінням того, що обслуговування може призупинитися, коли клієнтам із вищим пріоритетом знадобляться ресурси. Ця модель підходить для висновків, оскільки надмірне розгортання дозволяє робочим навантаженням швидко переходити на доступні графічні процесори, якщо їх переривати.
Враховуючи це тло графічних процесорів та обчислення в хмарі штучного інтелекту, ми зараз в положенні почати досліджувати, куди вписується криптовалюта в усе це. Давайте (нарешті) розберемося в цьому.
Проекти та звіти часто цитують спостереження Пітера Тіла, що «ШІ зосереджується, крипто децентралізується», коли обговорюють роль крипто в навчанні ШІ. Хоча заява Тіла безсумнівно є правдивою, ми тільки що побачили достатньо доказів очевидної переваги Big Tech в навчанні потужних ШІ - це часто неправильно використовується, щоб запропонувати, що крипто та децентралізовані комп'ютери пропонують основне рішення для збалансування впливу Big Tech.
Такі заяви відгукуються на попередні перебільшення потенціалу криптовалюти для революції соціальних медіа, геймінгу та безлічі інших галузей. Вони є не лише контрпродуктивними, а й, як я незабаром викладу, нереалістичними - принаймні в короткостроковій перспективі.
Замість цього я буду використовувати більш прагматичний підхід. Я буду вважати, що AI-стартап, який шукає обчислення, не цікавиться принципами децентралізації або наростаючою ідеологічною опозицією до великих технологічних компаній. Натомість, у них є проблема - вони хочуть мати доступ до надійного обчислення GPU за найнижчу можливу ціну. Якщо криптопроект може надати краще рішення для цієї проблеми, ніж некриптовані альтернативи, вони його використовуватимуть.
З цією метою спочатку давайте з'ясуємо, з ким конкурують криптопроекти. Раніше ми обговорювали різні категорії провайдерів хмарного штучного інтелекту - Великі технологічні компанії та гіпермасштаби, великі нові хмари, малі нові хмари, провайдери платформ та майданчики.
Основна теза, що стоїть за децентралізованим обчисленням (як і всі проекти DePIN), полягає в тому, що поточний ринок обчислень працює неефективно. Попит на GPU залишається надзвичайно високим, тоді як постачання розсіяне і недостатньо використовується в глобальних центрах обробки даних та окремих домогосподарствах. Більшість проектів у цьому секторі прямо конкурують з ринками, агрегуючи це розсіяне постачання для зменшення неефективностей.
Завершивши це, давайте подивимося, як ці проекти (а також ринки обчислень в цілому) можуть допомогти з різними завданнями ИШ - навчанням, налаштуванням та інференцією.
Про все по порядку. Ні, ASI не збирається навчатися на глобальній мережі децентралізованих графічних процесорів. Принаймні, не на нинішній траєкторії ШІ. І ось чому.
Раніше ми обговорювали, наскільки великими стають кластери базових моделей. Вам потрібно 100 000 найпотужніших GPU в світі, щоб хоча б почати конкурувати. Це число зростає з кожним роком. До 2026 року очікується, що вартість тренувального запуску перевищить 100 мільярдів доларів, що може вимагати мільйони GPU або більше.
Тільки великі технологічні компанії, підтримувані основними небоклаудами та прямими партнерствами з Nvidia, можуть зібрати кластери такого масштабу. Пам'ятайте, ми знаходимося в гонці за ШІ, і всі учасники є як високомотивованими, так і капіталізованими. Якщо є додатковий запас стількох графічних процесорів (що не так), то вони будуть першими, хто їх забере.
Навіть якщо криптопроєкт якимось чином накопичив необхідні обчислення, дві фундаментальні перешкоди перешкоджають децентралізованій розробці ASI:
По-перше, потрібно щоб великі кластери GPU були підключені, щоб працювати ефективно. Навіть якщо ці кластери будуть розділені між островами в містах, їх все одно потрібно буде підключати за допомогою присвячених оптичних волоконних ліній. Це неможливо в децентралізованому середовищі. Окрім закупівлі GPU, встановлення готових до використання центрів обробки даних, які підходять для штучного інтелекту, вимагає дотримання детального планування - зазвичай це процес тривалістю від одного до двох років. (xAI зробив це всього за 122 дні, але малоймовірно, що Ілон запустить токен найближчим часом).
По-друге, простого створення центру обробки даних зі штучним інтелектом недостатньо для народження надрозумного ШІ. Засновник Anthropic Даріо Амодей останнім часом пояснив, масштабування в штучному інтелекті подібно до хімічної реакції. Так само, як хімічна реакція вимагає кількох реагентів у точних пропорціях для продовження, успішне масштабування штучного інтелекту залежить від трьох необхідних компонентів, які зростають разом: більші мережі, триваліші часи навчання та більші набори даних. Якщо ви масштабуєте один компонент без інших, процес зупиняється.
Навіть якщо нам вдасться якимось чином накопичити обидва обчислення і змусити кластери працювати разом, нам все одно потрібні терабайти високоякісних даних, щоб навчена модель була хорошою. Без власних джерел даних Big Tech, капіталу для укладання багатомільйонних угод з онлайн-форумами та ЗМІ або існуючих моделей для генерації синтетичних даних, отримання адекватних навчальних даних неможливе.
Останнім часом було дещо побоювання, що закони масштабування можуть досягти плато, з потенційними LLM, що досягають стелі продуктивності. Деякі тлумачать це як відкриття для розвитку децентралізованого штучного інтелекту. Однак це нехтує важливим фактором - концентрацією талантів. Сьогодні великі технологічні компанії та лабораторії зі штучного інтелекту мають найкращих дослідників у світі. Будь-який прорив альтернативного шляху до AGI, ймовірно, з'явиться із цих центрів. З огляду на конкурентну ландшафті, такі відкриття залишаться в тісному криту.
Беручи до уваги всі ці аргументи, я впевнений на 99,99%, що навчання ШІ - навіть найпотужніших моделей у світі - не буде проводитися в рамках децентралізованого обчислювального проекту. У такому випадку, які моделі криптовалюти дійсно можуть допомогти навчити?
Щоб навчити моделі на окремих кластерах GPU, розташованих у різних географічних місцях, нам потрібно реалізувати паралелізм даних між ними. (Нагадаємо, що паралелізм даних - це спосіб, яким різні острови GPU, кожен з них працюючи з окремими частинами навчальних даних, синхронізуються між собою). Чим більша модель, яку навчають, тим більше даних потрібно обмінювати між цими островами. Як ми обговорювали, для фронтових моделей з понад трільйоном параметрів потрібна достатня пропускна здатність, щоб вимагати окремих оптичних волоконних з'єднань.
Однак для менших моделей вимоги до пропускної здатності зменшуються пропорційно. Недавні досягнення в алгоритмах навчання з низьким рівнем комунікації, особливо в затриманій синхронізації, створили перспективні можливості для навчання невеликих та середніх моделей у децентралізований спосіб. Дві команди проводять ці експериментальні зусилля.
Nous Research - це компанія-акселератор штучного інтелекту та провідний учасник у розробці відкритого джерела штучного інтелекту. Вони найбільш відомі своєю серією мовних моделей Hermes та інноваційними проектами, такими як World Sim. Раніше цього року вони протягом кількох місяців працювали на LLM-рейтинговій підмережі BitTensor. Вони спробували себе в децентралізованому обчисленні, випустивши DisTrOпроект "Розподілене навчання через Інтернет", де вони успішно тренували модель Llama-2 з 1,2 млрд параметрів, досягнувши зменшення вимог до між-GPU пропускної здатності в 857 разів.
Звіт DisTrO від Nous Research
Первинний інтелект, стартап, що розробляє інфраструктуру для децентралізованого штучного інтелекту в масштабі, має на меті агрегувати глобальні обчислювальні ресурси та забезпечити спільне навчання передових моделей за допомогою розподілених систем. Їх фреймворк OpenDiLoCo (реалізуючи метод DeepMind's Розподілений метод з низьким рівнем комунікації) успішно навчав мільярдну параметричну модель на двох континентах і трьох країнах, зберігаючи використання обчислень на рівні 90-95%.
Але як працюють ці децентралізовані тренувальні забіги?
Традиційний паралелізм даних вимагає, щоб графічні процесори ділилися та усереднювали свою вагу після кожного тренувального кроку, що неможливо через підключення до Інтернету. Натомість ці проєкти дозволяють кожному «острову» графічних процесорів тренуватися незалежно протягом сотень кроків перед синхронізацією. Подумайте про це як про незалежні дослідницькі групи, які працюють над одним і тим же проектом: замість того, щоб постійно перевіряти один одного, вони досягають значного прогресу самостійно, перш ніж поділитися своїми висновками.
DisTrO та OpenDiLoCo синхронізуються лише кожні 500 кроків, використовуючи подвійний підхід оптимізатора:
Коли вони синхронізуються, замість того, щоб ділитися всіма вагами, вони діляться «псевдоградієнтом» - фактично різницею між їх поточними вагами і вагами з останньої синхронізації. Це дуже ефективно, схоже на те, що ви ділитеся тільки тим, що змінилося в документі, а не надсилаєте весь документ кожного разу.
INTELLECT-1, практична реалізація OpenDiLoCo від Prime Intellect ще більше підтримує цей підхід, навчаючи 10B параметрів моделі - найбільший децентралізований навчальний процес на сьогоднішній день. Вони додали ключові оптимізації, такі як:
INTELLECT-1, навчений за допомогою понад 20 GPU кластерів, розподілених по всьому світу, недавно завершивпередшкільна підготовкаі незабаром буде випущений як повністю відкрита модель.
ІНТЕЛЕКТ-1 панель навчання
Такі команди, як Макрокосмосвикористовують схожі алгоритми донавчання моделейв екосистемі Bittensor.
Якщо ці децентралізовані алгоритми навчання продовжують покращуватися, вони можуть бути здатні підтримувати моделі до 100 мільярдів параметрів з наступним поколінням графічних процесорів. Навіть моделі цього розміру можуть бути дуже корисними для широкого спектру використання:
Файн-тюнінг - це процес взяття передньо навченої базової моделі (зазвичай відкрита від Meta, Mistral або Alibaba) та подальше навчання її на конкретному наборі даних для адаптації до певних завдань або доменів. Це потребує значно менше обчислювальних ресурсів, ніж навчання з нуля, оскільки модель вже вивчила загальні мовні закономірності і потребує лише налаштування своїх вагів для нового домену.
Визначення вимог до налаштування масштабу під час точного налаштування залежно від розміру моделі. Припускаючи тренування на H100:
З урахуванням цих технічних характеристик, точна настройка не потребує складних розподілених алгоритмів навчання, розглянутих раніше. Модель на вимогу, де розробники орендують кластери GPU на короткий, зосереджений період, забезпечує достатню підтримку. Децентралізовані ринки обчислювальних ресурсів з надійною доступністю GPU мають ідеальне положення для роботи з такими завданнями.
Висновок – це місце, де децентралізовані обчислювальні маркетплейси мають найчіткіший шлях до відповідності продукту ринку. За іронією долі, це найменш обговорюваний робочий процес у контексті децентралізованого навчання. Це пов'язано з двома факторами: висновкам не вистачає привабливості 100 000 тренувань «моделі бога» GPU, і частково через поточну фазу революції штучного інтелекту.
На сьогоднішній день більша частина комп'ютерів дійсно йде на навчання. Перегони за ASI призводять до величезних початкових інвестицій у навчальну інфраструктуру. Однак цей баланс неминуче змінюється в міру того, як програми штучного інтелекту переходять від досліджень до виробництва. Для того, щоб бізнес-модель, пов'язана зі штучним інтелектом, була стійкою, дохід, отриманий від висновків, повинен перевищувати витрати як на навчання, так і на висновки разом узяті. Хоча навчання GPT-4 було надзвичайно дорогим, це були одноразові витрати. Поточні витрати на обчислення — і шлях OpenAI до прибутковості — зумовлені обслуговуванням мільярдів запитів на висновки для клієнтів, які платять.
Ринок обчислень, децентралізований чи інший, за своєю природою агрегування різноманітних моделей графічних процесорів (старих і нових) з усього світу, опиняється в унікальному становищі для обслуговування робочих навантажень висновків.
Обчислювальні маркетплейси, як децентралізовані, так і традиційні, природно, досягають успіху в робочих навантаженнях висновків, агрегуючи різноманітні моделі графічних процесорів (як поточні, так і застарілі) по всьому світу. Притаманні їм переваги ідеально узгоджуються з вимогами висновків: широке географічне поширення, стабільний час безвідмовної роботи, резервування системи та сумісність між поколіннями графічних процесорів.
Ми обговорили різні робочі процеси, з якими може або не може допомогти децентралізоване обчислення. Тепер нам потрібно відповісти на ще одне важливе питання: чому розробник обрав би захист обчислень від децентралізованого постачальника порівняно з централізованим? Які переконливі переваги пропонують децентралізовані рішення?
Стейблкоїни досягли відповідності продукту ринку, пропонуючи чудову альтернативу традиційним транскордонним платежам. Важливим фактором є те, що стейблкоїни просто набагато дешевші! Аналогічно, єдиним найбільшим фактором, який впливає на вибір розробником штучного інтелекту хмарного провайдера, є вартість. Щоб постачальники децентралізованих обчислень могли ефективно конкурувати, вони повинні спочатку забезпечити вищі ціни.
Комп'ютерний маркетплейс, як і всі маркетплейси, є бізнесом мережевих ефектів. Чим більша пропозиція графічних процесорів на платформі, тим більша ліквідність і доступність для клієнтів, що, у свою чергу, приваблює більший попит. У міру зростання попиту це стимулює більше власників графічних процесорів приєднуватися до мережі, створюючи сприятливий цикл. Збільшення пропозиції також забезпечує більш конкурентоспроможне ціноутворення за рахунок кращого узгодження та скорочення часу простою. Коли клієнти можуть постійно знаходити потрібні їм обчислення за привабливими цінами, вони, швидше за все, створять тривалу технічну залежність від платформи, що ще більше посилить мережевий ефект.
Ця динаміка особливо потужна при виведенні на інференцію, де географічний розподіл постачання фактично може покращити пропозицію продукту, знизивши час затримки для кінцевих користувачів. Перша торгова площадка, яка досягне цього обертового колеса ліквідності на шкалі, матиме значну конкурентну перевагу, оскільки як постачальники, так і клієнти стикаються з витратами на переключення після інтеграції з інструментарієм і робочими процесами платформи.
Ефект куліс ринку GPU
На таких ринках, де переможець отримує все, запуск мережіі досягнення відповідної швидкості виходу на орбіту - найбільш критична фаза. У цьому випадку криптовалюта надає проектам децентралізованого обчислення дуже потужний інструмент, якого просто немає у їх централізованих конкурентів: токенові стимули.
Механіка може бути простою, але потужною. Протокол спочатку запустить токен, який включає графік інфляційних винагород, можливо, розподіляючи початкові алокації серед ранніх учасників через airdrop. Ці емісії токенів будуть служити основним інструментом для запуску обох сторін ринку.
Для постачальників GPU структура винагороди повинна бути ретельно розроблена для формування поведінки з боку постачальників. Постачальники отримували би токени, пропорційні до їх внеску в обчислювальну потужність та рівня використання, але система повинна виходити за межі простої лінійної винагороди. Протокол може впроваджувати динамічні множники винагороди, щоб вирівняти географічні або типи апаратного забезпечення - аналогічно до того, як Uber використовує підвищення цін для стимулювання водіїв у зонах з високим попитом.
Постачальник може отримати винагороду 1,5 рази більшу за надання обчислювальних можливостей в недосяжних регіонах або винагороду 2 рази більшу за надання тимчасово дефіцитних типів GPU. Додаткове розподілення системи винагород на основі постійної використаності би стимулювало постачальників підтримувати стабільну доступність, а не випадково переходити між платформами.
Зі сторони попиту клієнти отримували би токенові винагороди, які ефективно субсидували їх використання. Протокол може пропонувати збільшені винагороди за тривалі комітменти обчислень, що стимулює користувачів будувати глибше технічні залежності від платформи. Ці винагороди можуть бути додатково структуровані для вирішення стратегічних пріоритетів платформи, таких як захоплення попиту в певній географії.
Базові ставки для обчислень можуть бути збережені на рівні або трохи нижче ринкових ставок, з використанням протоколів оракули zkTLSщоб постійно контролювати та порівнювати ціни конкурентів. Винагороди у вигляді токенів служили б додатковим стимулом на основі цих конкурентних базових ставок. Ця подвійна модель ціноутворення дозволила б платформі зберігати конкурентоздатність цін, використовуючи токенові стимули для підтримки певних поведінкових моделей, що зміцнюють мережу.
Розподілуючи стимули в токенах, як постачальники, так і клієнти почнуть накопичувати певну частку в мережі. Хоча деякі, можливо, більшість, продаватимуть ці частки, інші будуть тримати їх, фактично стаючи зацікавленими сторонами та проповідниками платформи. Ці залучені учасники матимуть особистий інтерес у успіху мережі, сприяючи її зростанню та прийняттю поза своїм безпосереднім використанням чи наданням ресурсів обчислень.
З плином часу, коли мережа набирає потужність та встановлює стійкі мережеві ефекти, ці стимули в токенах можна поступово зменшувати. Природні переваги найбільшого ринку - краще забезпечення, вища використовуваність, ширша географічна покриття - стають самозберігаючими факторами зростання.
Як токенові стимули можуть прискорити ринок GPU
Хоча ціна і діапазон є критичними відмінностями, децентралізовані обчислювальні мережі вирішують зростаючу проблему: обмеження в роботі з централізованими постачальниками. Традиційні постачальники хмарних послуг вже продемонстрували свою готовність припиняти або припиняти надання послуг на підставі політики контенту та зовнішні тиски. Ці прецеденти породжують законні питання про те, як подібні політики можуть розповсюджуватися на розробку та впровадження моделей ШІ.
По мере того, как модели искусственного интеллекта становятся все более сложными и решают все более разнообразные задачи, существует реальная возможность того, что провайдеры облачных услуг могут вводить ограничения на тренировку и обслуживание моделей, аналогично существующим подходам к модерации контента. Это может затронуть не только NSFW-контент и спорные темы, но и законные случаи использования в таких областях, как медицинское изображение, научные исследования или творческое искусство, которые могут вызывать чрезмерно осторожные автоматические фильтры.
Децентралізована мережа пропонує альтернативу, дозволяючи учасникам ринку приймати власні інфраструктурні рішення, потенційно створюючи більш вільне та необмежене середовище для інновацій.
Зворотна сторона архітектури без дозволу полягає в тому, що конфіденційність стає складнішою. Коли обчислення розподіляється по мережі провайдерів, а не знаходиться в центрах даних однієї довіреної сутності, розробники повинні ретельно підходити до захисту даних. Хоча шифрування та середовища довіри можуть допомогти, існує вроджений компроміс між опором на цензуру та конфіденційністю, який розробники повинні регулювати відповідно до своїх конкретних вимог.
З урахуванням надзвичайного попиту на обчислення штучного інтелекту постачальники GPU можуть експлуатувати своє положення, щоб витягти максимальний прибуток від успішних клієнтів. В пост з минулого року, відомий розробник-одноосібник Пітер Левелс поділився тим, як він та інші розробники стикнулися зі збільшенням цін своїх постачальників на понад 600% після публічного розкриття доходів їхнього штучного інтелекту.
Децентралізовані системи можуть запропонувати протидію цій проблемі - бездовірне забезпечення виконання контрактів. Коли угоди кодуються на блокчейні, а не занурені в умови обслуговування, вони стають прозорими і незмінними. Постачальник не може произвольно підвищувати ціни або змінювати умови середині контракту, якщо зміни не були явно згодні з протоколом.
Поза ціноутворенням, децентралізовані мережі можуть використовувати довірені середовища виконання (TEEs)щоб забезпечити перевірні обчислення. Це забезпечує, що розробники фактично отримують ресурси GPU, за які вони платять, як в апаратних характеристиках, так і відведеному доступі. Наприклад, коли розробник платить за відведений доступ до восьми GPU H100 для навчання моделі, криптографічні докази можуть підтвердити, що їхні навантаження дійсно виконуються на H100s з повним обсягом пам'яті на GPU 80 ГБ, а не тихо знижені до карт меншого класу або ресурси, які діляться з іншими користувачами.
Децентралізовані комп'ютерні мережі можуть надати розробникам по-справжньому бездозвільні альтернативи. На відміну від традиційних постачальників, які вимагають обширних процесів KYC та перевірок кредитної історії, до цих мереж може приєднатися будь-хто і почати споживати або надавати обчислювальні ресурси. Це драматично знижує бар'єри для входу, особливо для розробників на ринках, що розвиваються, або тих, хто працює над експериментальними проектами.
Важливість цієї бездозвільної природи стає ще потужнішою, коли ми розглядаємо майбутнє AI-агентів. AI-агенти тільки починають знаходити свої опори, з вертикально інтегровані агентиочікується, що вона перевищить розмір індустрії SaaS. З подібними до gateПравда Термінал та Зеребро, ми бачимо перші ознаки агентів, які набувають автономії та вчаться використовувати зовнішні інструменти, такі як соціальні медіа та генератори зображень.
Оскільки ці автономні системи стають більш складними, вони можуть потребувати динамічного забезпечення власних обчислювальних ресурсів. Децентралізована мережа, де контракти можуть виконуватися безпосередньо за допомогою коду, а не людських посередників, є природною інфраструктурою для цього майбутнього. Агенти можуть автономно укладати контракти, відстежувати продуктивність та регулювати своє використання обчислювальних ресурсів в залежності від попиту — все це без необхідності втручання або затвердження людини.
Концепція децентралізованих обчислювальних мереж не нова - проекти намагалися демократизувати доступ до рідких обчислювальних ресурсів задовго до поточного буму штучного інтелекту.Render Networkпрацює з 2017 року, акумулюючи ресурси ГПУ для відображення комп'ютерної графіки.Акашзапущений у 2020 році, щоб створити відкритий ринок для загального обчислення. Обидва проєкти знайшли помірний успіх у своїх нішах, але зараз фокусуються на роботі зі штучним інтелектом.
Аналогічно, децентралізовані мережі зберігання, такі як gate.ioFilecoinіArweaveрозширюються в область обчислень. Вони розуміють, що зростанням штучного інтелекту як основного споживача як зберігання, так і обчислення набуває сенсу пропонувати інтегровані рішення.
Так само, як традиційні центри обробки даних борються за конкуренцію зі спеціалізованими AI-об'єктами, ці встановлені мережі стикаються з тяжким завданням проти AI-нативних рішень. Вони не мають ДНК для виконання складної оркестрації, необхідної для AI-навантажень. Замість цього вони знаходять свою опору, ставши постачальниками обчислювальних ресурсів для інших AI-специфічних мереж. Наприклад, як Render, так і Akash тепер роблять свої GPU доступними на ринку io.net.
Хто ці нові ринки зі штучним інтелектом?io.net- один з ранніх лідерів у сфері агрегації постачання корпоративних GPU з більш ніж 300 000 перевірених GPU в їхній мережі. Вони стверджують, що пропонують економію вартості до 90% порівняно з централізованими гравцями на ринку і щоденні заробітки понад 25 000 доларів США (річні виходять 9 мільйонів доларів США). Так само, Aethirагрегує понад 40 000 GPU (включаючи 4 000+ H100s) для обслуговування як справи штучного інтелекту, так і хмарних обчислень.
Раніше ми обговорювали, як Prime Intellect створює фреймворки для децентралізованої підготовки в масштабі. Окрім цих зусиль, вони також надають Ринок GPUде користувачі можуть орендувати H100 за запитом.Gensyn - ще один проект, який велику увагу приділяє децентралізованій підготовці, використовуючи схожу систему підготовки та підхід до ринку відеокарт.
Хоча всі ці ринки не залежать від завантаження (вони підтримують як навчання, так і виведення), кілька проектів спрямовані тільки на виведення - децентралізоване обчислювальне завантаження, яке нас найбільше захоплює. Головний серед них - Exo Labs, який дозволяє користувачам запускати LLM на рівні фронту на повсякденних пристроях. Вони розробили відкрите програмне забезпечення, яке дозволяє розподіляти завдання інтелектуального виведення штучного інтелекту по різних пристроях, таких як iPhone, Android та Mac. Вони недавно показалапрацює модель 70-B (масштабована до 400-B), розподілена по чотири M4 Pro Mac Minis.
Коли Сатоші запустив Bitcoin у 2008 році, його переваги - це цифрове золото з жорстким обмеженням постачання та гроші, що не підлягають цензурі - були виключно теоретичними. Традиційна фінансова система, незважаючи на свої недоліки, працювала. Центральні банки ще не розпочали безпрецедентну грошову емісію. Міжнародні санкції не були зброєю проти цілих економік. Потреба в альтернативі здавалася академічною, а не невідкладною.
Знадобилося десятиліття кількісного пом'якшення, кульмінацією якого стала грошова експансія епохи COVID, щоб теоретичні переваги біткойна кристалізувалися у відчутну цінність. Сьогодні, коли інфляція підриває заощадження, а геополітична напруженість загрожує домінуванню долара, роль біткойна як «цифрового золота» перетворилася з шифропанкової мрії на актив, прийнятий інститутами та національними державами.
Цей шаблон повторювався з стейблкоінами. Як тільки загальнопризначний блокчейн на базі Ethereum став доступним, стейблкоїни миттєво стали одним із найбільш міжнародних випадків використання. Однак це знадобилося років поступових поліпшень у технологіях та економіках країн, таких як Аргентина та Туреччина, щоб стейблкоіни перетворилися з нішевого криптовалютного інновації в критичну фінансову інфраструктуру, яка пересуває трильйони доларів щорічного обсягу.
Криптовалюта за своєю природою є оборонною технологією - інновації, які здаються зайвими в хороші часи, але стають важливими в кризові періоди. Потреба в цих рішеннях стає очевидною лише тоді, коли існуючі системи зазнають невдач або виявляють свої справжні кольори.
Сьогодні ми живемо в золоту епоху ШІ. Венчурний капітал вільно потоками, компанії змагаються пропонувати найнижчі ціни, і обмеження, якщо вони є, рідкісні. В такому середовищі децентралізовані альтернативи можуть здатися незачіпними. Чому мати справу з складнощами токеноміки та доказовими системами, коли традиційні постачальники працюють належним чином?
Але, керуючись головними технологічними хвилями минулого, ця доброта є тимчасовою. Ми ще тільки на початку революції штучного інтелекту. Поки технологія стигне і переможці змагання зі штучного інтелекту виявляться, їх справжня сила виявиться. Ті ж самі компанії, які сьогодні пропонують щедрий доступ, з часом встановлять контроль - через ціни, політику, дозволи.
Це не просто ще один технологічний цикл, який стоїть на карті. Штучний інтелект стає новим основою цивілізації - лінзою, через яку ми будемо обробляти інформацію, створювати мистецтво, приймати рішення і, в кінцевому рахунку, еволюціонувати як вид. Обчислення - це більше, ніж просто ресурс; це валюта самого інтелекту. Ті, хто контролюють його потік, визначатимуть психічний фронт людства.
Децентралізовані обчислення – це не про те, щоб пропонувати дешевші графічні процесори або більш гнучкі варіанти розгортання (хоча для успіху вони повинні забезпечувати і те, і інше). Йдеться про те, щоб доступ до штучного інтелекту — найбільш трансформаційної технології людства — залишався нецензурованим і суверенним. Це наш щит від неминучого майбутнього, де жменька компаній диктує не тільки те, хто може використовувати штучний інтелект, але і як вони можуть думати з його допомогою.
Ми будуємо ці системи сьогодні не тому, що вони є невідкладними, але тому, що вони будуть необхідними завтра. Коли штучний інтелект стане таким же фундаментальним для суспільства, як гроші, бездозволове обчислення не буде просто альтернативою - воно буде так само важливим для опору цифровому гегемонії, як Біткойн і стейблкоїни для опору фінансовому контролю.
Швидкість до штучного суперінтелекту може бути поза досягом децентралізованих систем. Але забезпечення доступності всім плодів цього інтелекту? Це варто бігти.
Пригласить больше голосов
Переслати Оригінальний заголовок: Децентралізований розрахунок
Сьогоднішня стаття присвячена зародженню, але часто непорозумілому сектору децентралізованого обчислення в криптовалюті. Ми заглиблюємося у ландшафт інфраструктури штучного інтелекту, щоб зрозуміти, де децентралізовані альтернативи можуть реалістично конкурувати.
Ми досліджуємо такі питання: Чи може ASI навчатися на розподілених мережах? Які унікальні переваги пропонують криптовалютні мережі? І чому бездозволова інфраструктура обчислень може стати так само важливою для штучного інтелекту, як і Біткоїн для фінансів.
Один із загальних шаблонів, який ви помітите в статті, - це експоненційний ріст у всьому, що стосується ШІ - інвестицій, обчислень та можливостей. Це співпадає з відродженням на ринках криптовалют і у свідомості. Ми дуже зацікавлені в перетині цих двох великих технологічних хвиль.
Привіт!
У сонячний день в Мемфісі, Теннессі, шпигунський літак з гвинтовим пропелером повторно облітав над промисловою будівлею, його пасажири жваво фотографували споруди знизу. Це було не сцена з розвідки холодної війни, а з 2024 року. Цілью не було військове установлення або місце збагачення урану, а колишній завод побутової техніки, в якому зараз розміщений один з найпотужніших суперкомп'ютерів світу. Пасажирами не були іноземні агенти, а працівники конкуруючої компанії по обробці даних.
Кожні кілька десятиліть з'являється перетворююча технологія з потенціалом безсумнівно змінити траєкторію цивілізації. Що настає, це перегони між найпотужнішими суб'єктами світу, щоб першими реалізувати цю технологію. Винагороди настільки великі, а наслідки невдачі настільки руйнівні, що ці суб'єкти швидко мобілізують свій повний арсенал ресурсів - людські таланти та капітал - для володіння технологією.
У 20 столітті дві видатні технології відповідали цій визначенні - ядерні зброї та космічні дослідження. Гонка за оволодіння цими технологіями залучила наймогутніші національні держави. Перемоги Сполучених Штатів у обох змаганнях забезпечили їхній статус найбільшого світового супердержави, започаткувавши еру неперевершеного процвітання. Для переможених - нацистської Німеччини та Радянського Союзу - наслідки були руйнівними, навіть термінальними.
Великий завод K-25 площею 44 акри в Оук-Ридж, Теннессі, США, де був вироблений уран для першої ядерної зброї ( джерело)
Перемога Америки обійшлася величезною ціною. Проект Манхеттен коштував майже 2 мільярди доларів (приблизно 30 мільярдів доларів ураховуючи інфляцію) і залучав понад 120 000 людей - один на кожну тисячу американців. Космічна гонка вимагала ще більших ресурсів. Програма Аполлон коштувала 28 мільярдів доларів у 1960-х роках (приблизно 300 мільярдів доларів за сьогоднішніми показниками) і залучала понад 400 000 осіб - одну на 490 американців. У 1966 році NASA контролювала 4,4% всього федерального бюджету США.
Аполлон 11, щойно перед зльотом на місячну місію ( джерело)
Запуск ChatGPT в 2022 році позначив настання нової гонки з розмірами, що змінюють цивілізацію - преслідування штучного суперінтелекту (ASI). В той час як штучний інтелект вже переплітається з повсякденним життям - управління соціальними медіа, рекомендації Netflix та фільтри для спаму електронної пошти - поява великих мовних моделей (LLM) обіцяє перетворити все: людську продуктивність, створення засобів масової інформації, наукові дослідження та саму інновацію.
Цього разу претендентами виступають не національні держави (принаймні, поки що), а найбільші світові корпорації (Microsoft, Google, Meta, Amazon), найгарячіші стартапи (OpenAI, Anthropic) та найбагатша людина (Ілон Маск). У той час як Big Tech спрямовує безпрецедентний капітал на створення інфраструктури для навчання все більш потужних моделей, стартапи забезпечують безпеку рекорднийфінансування венчурного капіталу. Елон, ну, робити речі Елона (дата-центр під наглядом належав його компанії, xAI).
Крім того, є всі інші — підприємства, менші компанії та стартапи — які, можливо, не прагнуть створити ASI, але прагнуть використовувати передові можливості, розблоковані штучним інтелектом, щоб оптимізувати свій бізнес, змінити галузь або створити абсолютно нову. Потенційні вигоди настільки великі, що кожен намагається претендувати на свою частку в цій новій економіці, керованій машинним інтелектом.
У самому серці революції штучного інтелекту лежить його найважливіший компонент: графічний процесор (GPU). Спочатку розроблений для прискорення графіки відеоігор, цей спеціалізований комп'ютерний чіп став найгарячішою товарною позицією у світі. Попит на GPU настільки потужний, що компанії часто стикаються зі значними труднощами місяці довгих списків очікуваннятільки щоб отримати кілька. Це попит привів NVIDIA, їх основного виробника, до позиції найціннішої компанії у світі.
Для бізнесів, які не мають можливості або не бажають безпосередньо купувати GPU, оренда обчислювальної потужності стала найкращою альтернативою. Це сприяло зростанню провайдерів хмарного AI - компаній, що працюють зі складними дата-центрами, розробленими для задоволення обчислювальних потреб AI-буму. Однак, зростання попиту та його непередбачуваної природи означає, що ні цінова ні наявність не є гарантією.
Ясперечалисятим, як криптовалюта функціонує як «Коазіанська» технологія, створена для «змащування коліс, будівництва доріг і зміцнення мостів» для розвитку інших революційних інновацій. З появою ШІ як перетворюючої сили нашої ери, нестача та надмірні витрати на доступ до ГПУ становлять бар'єр для інновацій. Кілька криптовалютних компаній втручаються з метою зрушення цих бар'єрів за допомогою стимулів на основі блокчейну.
У сьогоднішній статті ми спочатку відступимо від криптовалют, щоб розглянути основи сучасної інфраструктури ШІ - як нейронні мережі вчаться, чому ГПУ стали невід'ємною частиною і як центри обробки даних сьогодні еволюціонують, щоб задовольнити непередбачувані обчислювальні вимоги. Потім ми поглиблюємося в децентралізовані рішення для обчислень, досліджуючи, де вони реалістично можуть конкурувати з традиційними провайдерами, унікальні переваги, які пропонують мережі криптовалют і чому, хоча вони не дають нам загального інтелекту, вони все ж будуть невід'ємною частиною забезпечення того, що переваги ШІ залишаються доступними для всіх.
Давайте почнемо з того, чому в першу чергу велике значення мають графічні процесори (GPUs).
Це Давид, 17-футова, 6-тонна мармурова скульптура, створена геніальним італійським маестро епохи Відродження Мікеланджело. Вона зображує біблійного героя з історії про Давида і Голіафа і вважається шедевром за бездоганне відтворення анатомії людини та майстерний погляд на перспективу й деталі.
Як і всі мармурові скульптури, Давід почався як величезна, груба плита мармуру Карра. Щоб досягти його кінцевої, величної форми, Мікеланджело мусив систематично відлущувати камінь. Починаючи з широких, сміливих рухів, щоб створити основну людську форму, він перейшов до все більш дрібних деталей - кривизни м'яза, напруженості вени, тонкого вираження рішучості в очах. Мікеланджело знадобилося три роки, щоб визволити Давида із каменю.
Але чому обговорювати мармурову фігуру, яка має 500 років, у статті про штучний інтелект?
Як і Девід, кожна нейронна мережа починається як чистий потенціал - збірка вузлів, ініціалізованих випадковими числами (ваги), така ж безформна, як той великий блок мармуру Каррара.
Ця необроблена модель багаторазово подається навчальним даним — незліченним екземплярам вхідних даних у поєднанні з їхніми правильними виходами. Кожна точка даних, що проходить через мережу, запускає тисячі обчислень. У кожному вузлі (нейроні) вхідні зв'язки множать вхідне значення на вагу з'єднання, підсумовують ці добутки і перетворюють результат за допомогою «активаційної функції», яка визначає силу збудження нейрона.
Так само, як Мікеланджело відступає, оцінює свою роботу і коригує її, нейронні мережі проходять процес удосконалення. Після кожного проходу мережа порівнює свій вихід з правильною відповіддю та обчислює свою межу помилки. За допомогою процесу зворотного поширення помилки вона вимірює, на скільки кожне з'єднання сприяє помилці і, подібно до ударів молотком Мікеланджело, коригує значення. Якщо з'єднання призводить до неправильного прогнозування, його вплив зменшується. Якщо воно допомагає досягти правильної відповіді, то його вплив зміцнюється.
Коли всі дані проходять через мережу (завершуючи один крок прямого та зворотного поширення для кожної точки даних), це позначає кінець "епохи". Цей процес повторюється кілька разів, із кожним проходом уточнюючи розуміння мережі. Під час ранніх епох зміни ваги є драматичними, оскільки мережа робить широкі корекції - як перші жорсткі удари різця. У пізніших епохах зміни стають більш тонкими, налаштовуючи з'єднання для оптимальної продуктивності - так само, як дрібні останні штрихи виносять деталі Давида.
Нарешті, після тисяч або мільйонів ітерацій, навчена модель виходить на передній план. Схоже на те, що Девід стоїть гордо у своїй завершеній формі, нейронна мережа перетворюється з випадкового шуму в систему, здатну впізнавати патерни, робити прогнози, генерувати зображення котів, що їздять на самокатах, або давати змогу комп'ютерам розуміти та відповідати людською мовою.
Микеланджело, працюючи самотужки над Давідом, міг зробити лише один удар в розпилювач, кожен з яких вимагав точних розрахунків кута, сили та положення. Ця мукотривка точність - величезна причина того, чому йому знадобилося три безперервні роки, щоб завершити своє шедевр. Але уявіть, як тисячі рівносильних скульпторів працюють над Давідом в ідеальній координації - одна команда на кучері, інша на м'язи торса, а сотні більше на витончені деталі обличчя, рук і ніг. Такий паралельний зусилля стиснули б ці три роки в просто дні.
Так само, хоча ЦП є потужними та точними, вони можуть виконувати тільки один обчислення одночасно. Навчання нейронної мережі не потребує одного складного обчислення, а сотні мільйонів простих - в основному множення та додавання в кожному вузлі. Наприклад, згадана раніше нейронна мережа з всього 18 вузлами та близько 100 з'єднань (параметрів) може бути навчена на ЦП протягом прийнятного часу.
Однак, найпотужніші сьогодні моделі, такі як GPT-4 від OpenAI, мають 1,8 трильйонів параметрів! Навіть менші сучасні моделі містять принаймні мільярд параметрів. Навчання цих моделей по одному обчисленню зайняло б століття. Саме тут високопродуктивні графічні прискорювачі виявляються на висоті: вони можуть виконувати велику кількість простих математичних обчислень одночасно, що робить їх ідеальними для обробки кількох вузлів нейромереж одночасно.
Сучасні графічні процесори є приголомшливо потужними. Наприклад, найновіший графічний процесор NVIDIA B200 складається з понад 200 мільярдів транзисторів і підтримує 2250 трильйонів паралельних обчислень на секунду (2250 TFLOPS). Один графічний процесор B200 може працювати з моделями з параметрами до 740 мільярдів. Ці машини є досягненням сучасної інженерної думки, що пояснює, чому NVIDIA, продаючи кожну одиницю за ціною 40 000 доларів, за п'ять років ціна її акцій зросла більш ніж на 2 500%.
Дженсен Хуанг представляє NVIDIA B200
Однак, навіть ці вражаючі машини не можуть навчати моделі ШІ самостійно. Нагадаємо, що під час навчання кожен екземпляр даних повинен проходити через модель на кожному кроці вперед і назад окремо. Сучасні великі мовні моделі (LLM) навчаються на наборах даних, що охоплюють всю Інтернет. GPT-4, наприклад, обробив орієнтовно 12 трлн. токенів (приблизно 9 трлн. слів), і очікується, що наступне покоління моделей зможе обробляти до 100 трлн. токенів. Використання однієї GPU для такого великого обсягу даних все одно займатиме століття.
Рішення полягає в додаванні ще одного рівня паралелизму - створення кластерів GPU, де завдання навчання розподіляються серед численних GPU, що працюють як єдина система. Навчальні навантаження моделі можуть бути паралельно розподілені трьома способами:
Паралелизм даних: Кілька GPU кожен зберігає повну копію моделі нейронної мережі під час обробки різних частин навчальних даних. Кожен GPU обробляє свій призначений пакет даних незалежно перед періодичною синхронізацією з усіма іншими GPU. Під час цієї синхронізації GPU взаємодіють один з одним для знаходження колективного середнього їхніх ваг та потім оновлюють свої індивідуальні ваги так, що вони всі ідентичні. Внаслідок цього вони продовжують тренування на своєму наборі даних індивідуально, перш ніж знову синхронізуватися.
У міру того, як моделі стають більшими, одна копія може стати занадто великою, щоб поміститися на одному графічному процесорі. Наприклад, новітній графічний процесор B200 може містити лише 740 мільярдів параметрів, тоді як GPT-4 є моделлю з 1,8 трильйона параметрів. Паралелізм даних на окремих графічних процесорах у цьому випадку не працює.
Тензорний паралелізм: Цей підхід вирішує проблему обмеження пам'яті, розподіляючи роботу та вагу кожного шару моделі між кількома графічними процесорами. Графічні процесори обмінюються проміжними обчисленнями з усім кластером під час кожного кроку прямого та зворотного поширення. Ці графічні процесори зазвичай групуються в сервери по вісім одиниць, підключених через NVLink — високошвидкісне пряме з'єднання графічного процесора з графічним процесором NVIDIA. Для цього потрібна висока пропускна здатність (до 400 Гбіт/с) і з'єднання з низькою затримкою між графічними процесорами. Тензорний кластер ефективно функціонує як єдиний масивний графічний процесор.
Pipeline Parallelism: Цей метод розбиває модель на кілька GPU, при цьому кожен GPU обробляє певні шари. Дані проходять через ці GPU послідовно, як естафетний біг, де кожен бігун (GPU) керує своєю часткою перед передачею естафети. Паралелізм конвеєра особливо ефективний для підключення різних 8-графічних серверів в межах центру обробки даних, використовуючи високошвидкісні мережі InfiniBand для міжсерверної комунікації. Хоча його вимоги до комунікації перевищують паралелізм даних, вони залишаються нижчими, ніж інтенсивні обміни GPU в паралелізмі тензорів.
Масштаби сучасних кластерів вражають. GPT-4 з 1,8 трлн параметрів і 120 шарів потребував 25 000 A100 GPU для навчання. Процес зайняв три місяці і коштував понад 60 млн доларів. A100 - це дві покоління технології назад; використання сьогоднішніх GPU B200 потребувало б лише близько 8 000 одиниць і 20 днів навчання. Ще одна демонстрація того, наскільки швидко розвивається штучний інтелект.
Але клас моделей GPT-4 зараз є старими іграшками. Навчання для наступного покоління передових моделей вже ведеться в центрах обробки даних, де розміщені кластери з 100 000 GPU B100 або H100 (останній є поколінням старшим). Ці кластери, що представляють понад 4 мільярди доларів лише на капітальні витрати на GPU, є найпотужнішими суперкомп'ютерами людства, які забезпечують щонайменше чотириразову обчислювальну потужність у порівнянні з урядовими суперкомп'ютерами.
Крім забезпечення опрацювання даних, аспіранти ASI зіштовхуються з іншою проблемою при спробі налаштувати ці кластери: електроенергія. Кожна з цих відеокарт споживає 700 Вт енергії. Коли ви комбінуєте 100 000 з них, весь кластер (включаючи підтримуюче обладнання) споживає понад 150 МВт електроенергії. Щоб уявити собі це, це споживання енергії дорівнює споживанню енергії міста з населенням 300 000 осіб - що порівнюється з Новим Орлеаном або Цюрихом.
На цьому божевілля не закінчується. Більшість претендентів на ASI вважають, що Закони масштабування LLM— які свідчать про те, що продуктивність моделі передбачувано покращується зі збільшенням розміру моделі, розміру набору даних і навчальних обчислень, — залишаться актуальними. Вже в планах тренувальні запуски ще більш потужних моделей. За прогнозами, до 2025 року вартість кожного навчального кластера перевищить $10 млрд. До 2027 року понад 100 мільярдів доларів. У міру того, як ці цифри наближаються до інвестицій уряду США в програми «Аполлон», стає зрозуміло, чому досягнення ASI стало визначальною гонкою нашої епохи.
Метрики для моделей, що починаються з GPT-5, є оцінками
Оскільки споживання електроенергії зростає пропорційно розмірам кластерів, тренувальні прогони наступного року вимагатимуть понад 1 ГВт потужності. Через рік це буде 10 ГВт або більше. Немає показників того, що це збільшення сповільниться, тому очікується, що центри обробки даних споживатимуть приблизно 4.5% всесвітнього вироблено до 2030 року. Існуючі електричні мережі, вже має проблеми з поточними вимогами моделі, не може забезпечити достатню енергію для майбутніх кластерів. Це породжує важливе питання: звідки буде братися ця енергія? Big Tech використовує двохпронговий підхід.
У довгостроковій перспективі єдиним життєздатним рішенням є те, щоб аспіранти ASI генерували власну електроенергію. З урахуванням їхніх кліматичних зобов'язань ця енергія повинна надходити з відновлюваних джерел. Ядерна енергія виділяється як основне рішення. Amazon недавно придбанокомплекс центрів обробки даних, який працює на ядерній електростанції, за $650 мільйонів. Microsoftнайняв на роботуголова ядерних технологій та євідродження історичної електростанції Трі-Майл-Айленд. У Google є придбав кілька малих ядерних реакторів від каліфорнійської компанії Kairos Power. Сем Альтман з OpenAI підтримав енергетичні стартапи, такі як Helion, Exowatt, та Oklo.
Корпорація Майкрософт знову відкриває атомну електростанцію Три-Майл-Айленд (джерело зображення)
Водночас нараз сіються насіння ядерної енергії, але її плоди (або потужність) з'являться лише через кілька років. Що нарахунок енергетичних вимог для негайного створення моделей? Тимчасове рішення полягає в розподіленому тренуванні по декількох центрах обробки даних. Замість концентрації великих потреб у потужності в одному місці, компанії, такі як Microsoft і Google, розподіляють свої тренувальні кластери по декількох сайтах.
Звісно, викликом є ефективне забезпечення спільної роботи цих розподілених систем. Навіть ізі швидкістю світла дані займають приблизно 43 мс на повний шлях від східного до західного узбережжя США - в електронних термінах це вічність. Крім того, якщо навіть один чіп відстає, скажімо, на 10%, це призводить до сповільнення всього процесу навчання на той самий показник.
Рішення полягає в об'єднанні центрів обробки даних на декількох об'єктах за допомогою високошвидкісних оптоволоконних мереж і застосуванні комбінації методів паралелізму, розглянутих раніше, для синхронізації їх операцій. Тензорний паралелізм застосовується до графічних процесорів у кожному сервері, що дозволяє їм функціонувати як єдине ціле. Паралелізм конвеєрів з його нижчими вимогами до мережі використовується для зв'язку серверів в одному центрі обробки даних. Нарешті, центри обробки даних у різних місцях (так звані «острови») періодично синхронізують свою інформацію, використовуючи паралелізм даних.
Раніше ми відзначили, що паралельне оброблення даних виявляється неефективним для окремих GPU, оскільки вони не можуть незалежно розміщувати великі моделі. Однак ця динаміка змінюється, коли ми паралелізуємо острови - кожен з них містить тисячі GPU - а не окремі блоки. Навчальні дані розподіляються по кожному острову, і ці острови періодично синхронізуються через відносно повільні (порівняно з NVLink та Infiniband) оптичні волоконні з'єднання.
Давайте змінимо нашу увагу з навчання і графічних процесорів на самі центри обробки даних.
Двадцять років тому Amazon запустив Amazon Web Services (AWS) - один з найбільш трансформаційних бізнесів в історії - і створив цілком нову галузь, відому як хмарні обчислення. Сьогоднішні лідери у сфері хмарних послуг (Amazon, Microsoft, Google та Oracle) насолоджуються комфортним гегемонізмом, заробляючи разом річний дохід практично 300 мільярдів доларів з маржами 30-40%. Зараз поява штучного інтелекту створює нові можливості на ринку, який протягом багатьох років залишався переважно олігополістичним.
Фізичні вимоги, технічна складність та економіка центрів обробки даних з використанням AI з використанням GPU відрізняються від їх традиційних аналогів.
Ми раніше обговорювали, наскільки енергоефективними є відеокарти. Це призводить до того, що штучні інтелектуальні центри обробки даних стають набагато більш потужними та, відповідно, виробляють більше тепла. У той час як традиційні центри обробки даних використовують гігантські вентилятори (повітряне охолодження), щоб розсіяти тепло, цей підхід не є достатнім або фінансово доцільним для інтелектуальних центрів обробки даних. Замість цього, інтелектуальні центри обробки даних використовують системи рідкісного охолодження, де водяні блоки прямо приєднуються до відеокарт та інших гарячих компонентів, щоб ефективніше та тихіше розсіяти тепло. (Відеокарти B200 мають цю архітектуру вбудовану). Підтримка систем рідкісного охолодження потребує додавання великих веж охолодження, централізованої системи водопостачання та трубопроводів для транспортування води до та від всіх відеокарт - фундаментальні зміни інфраструктури центру обробки даних.
Поза вищою абсолютною споживанням енергії, центри обробки даних штучного інтелекту мають відмінні вимоги до навантаження. Тоді як традиційні центри обробки даних зберігають передбачуване споживання електроенергії, паттерни використання енергії для робочого навантаження ШІ є набагато більш волатильними. Ця волатильність виникає через те, що GPU періодично перемикається між роботою на 100% потужності та сповільненням до майже зупинки, коли тренування досягає контрольних точок, де ваги зберігаються у пам'яті або, як ми бачили раніше, синхронізуються з іншими островами. Центри обробки даних ШІ потребують спеціалізованої електроінфраструктури для управління цими коливаннями навантаження.
Побудова кластерів з графічними процесорами (GPU) набагато складніша, ніж побудова звичайних хмар обчислювальних систем. Графічним процесорам необхідно дуже швидко спілкуватися між собою. Для цього вони повинні бути дуже щільно упаковані. Типова інфраструктура для штучного інтелекту потребує понад 200 000 спеціальних кабелів, відомих як з'єднання InfiniBand. Ці кабелі дозволяють GPU спілкуватися один з одним. Якщо хоча б один кабель перестає працювати, вся система зупиняється. Процес навчання не може продовжуватися, поки цей кабель не відремонтують.
Ці вимоги до інфраструктури роблять практично неможливим модернізацію традиційних центрів обробки даних з високопродуктивними графічними прискорювачами для підготовки до штучного інтелекту. Таке оновлення вимагало б практично повної структурної перебудови. Замість цього компанії будують нові центри обробки даних, спеціально призначені для штучного інтелекту, з нуля, різні організації реалізують це в різних масштабах.
Провідні технологічні компанії змагаються за створення власних центрів обробки даних зі штучним інтелектом. Meta інвестує значні кошти в об'єкти виключно для власної розробки штучного інтелекту, розглядаючи це як пряму капітальну інвестицію, оскільки вона не пропонує хмарних сервісів. Корпорація Майкрософт будує такі ж величезні центри для забезпечення як власних проєктів штучного інтелекту, так і обслуговування ключових клієнтів, таких як OpenAI. Oracle також агресивно увійшла в цей простір, забезпечивши OpenAI як помітного клієнта. Amazon продовжує розширювати свою інфраструктуру, зокрема для підтримки нових компаній зі штучним інтелектом, таких як Anthropic. xAI Ілона Маска, не бажаючи покладатися на іншу компанію, вирішив побудувати власний кластер на 100 000 GPU.
Усередині 100 000 H100 GPU дата-центру xAI (gateджерело)
Поряд зі старожилами з'являються «neoclouds» - спеціалізовані постачальники хмар, що фокусуються виключно на обчисленнях GPU для робочих навантажень зі штучним інтелектом. Ці neoclouds поділяються на дві відмінні категорії за масштабом.
Великі постачальники хмарних послуг, включаючи CoreWeave, Крузоі LLama Labs, керують кластерами з понад 2 000 графічних процесорів. Вони відрізняються від традиційних хмарних сервісів двома аспектами: пропонуючи індивідуальні інфраструктурні рішення, а не стандартизовані пакети, і вимагаючи довгострокових зобов'язань для клієнтів замість домовленостей про оплату за використання.
Їхня бізнес-модель використовує ці довгострокові угоди та кредитоспроможність клієнтів для забезпечення фінансування інфраструктури. Дохід надходить від преміальних ставок, що стягуються за спеціалізовані послуги, і прибутку від спреду між низькими витратами на фінансування та платежами клієнтів.
Ось як зазвичай працює така домовленість: неохмарний провайдер укладає трирічний контракт із добре фінансованим стартапом зі штучного інтелекту на 10 000 графічних процесорів H100 за 40 мільйонів доларів щомісяця. Використовуючи цей гарантований потік доходів у розмірі 1,44 мільярда доларів, провайдер забезпечує вигідне банківське фінансування (під 6%) для придбання та встановлення інфраструктури вартістю 700 мільйонів доларів. Щомісячний дохід у розмірі 40 мільйонів доларів покриває 10 мільйонів доларів операційних витрат і 20 мільйонів доларів у вигляді платежів за кредитами, приносячи 10 мільйонів доларів щомісячного прибутку, тоді як стартап отримує спеціально створені виділені обчислювальні потужності.
Дана модель вимагає виключно ретельного відбору покупця. Постачальники зазвичай шукають компанії з великими грошовими резервами або сильною венчурною підтримкою, часто з оцінкою в 500 мільйонів доларів США або більше.
Невеликі неохмари пропонують кластери GPU з 2 000 або менше і обслуговують окремий сегмент ринку штучного інтелекту — малі та середні стартапи. Ці компанії або навчають менші моделі (до 70 мільярдів параметрів), або тонко налаштовують моделі з відкритим вихідним кодом. (Тонке налаштування — це процес адаптації базової моделі до конкретних випадків використання.) Обидва ці робочі навантаження вимагають помірних, але виділених обчислень протягом коротших періодів часу.
Ці провайдери пропонують обчислення на вимогу з годинними тарифами для безперервного доступу до кластеру на фіксований термін. Хоча це коштує більше, ніж довгострокові контракти, воно дає стартапам можливість експериментувати без зобов'язання укладати мультимільйонні угоди.
Нарешті, окрім головних хмарних постачальників та нових хмарних постачальників, у нас є посередники в галузі інфраструктури ШІ: платформи та агрегатори. Ці посередники не володіють інфраструктурою GPU, а замість цього з'єднують власників обчислювальних ресурсів з тими, хто їх потребує.
Провайдери платформи, такі як HydraHostтаFluidstackдіяти як Shopify для обчислення на ГПУ. Точно так само, як Shopify дозволяє продавцям запускати онлайн-магазини без побудови експлуатаційної інфраструктури, ці платформи дозволяють операторам центрів обробки даних та власникам ГПУ надавати обчислювальні послуги без розробки власних інтерфейсів для клієнтів. Вони надають повний технічний пакет для запуску бізнесу з обчислення на ГПУ, включаючи засоби управління інфраструктурою, системи надання послуг клієнтам та рішення щодо розрахунків.
Агрегатори ринков, такі як gate.io Vast.aiфункціонувати як Amazon у світі GPU. Вони створюють майданчик, що поєднує різноманітні обчислювальні пропозиції від різних постачальників - від карт RTX для споживачів до професійних GPU H100. Власники GPU вказують свої ресурси з детальними показниками продуктивності та рейтингами надійності, а клієнти купують час обчислення через самообслуговування.
До цього моменту наша дискусія була спрямована на навчання (або налаштування) моделей. Однак, після навчання, модель потрібно розгорнути для обслуговування кінцевих користувачів - процес, який називається інференцією. Кожного разу, коли ви спілкуєтеся з ChatGPT, ви використовуєте GPU, що запускає робочі навантаження інференції, які отримують ваш вхід та генерують відповідь моделі. Давайте повернемося до обговорення мармурових статуй на хвилину.
Це також Девід — не оригінал Мікеланджело, але гіпсовий відлиток, замовлений королевою Вікторією в 1857 році для лондонського музею Вікторії та Альберта. Поки Мікеланджело три важкі роки уважно обтачував мармур, щоб створити оригінал у Флоренції, цей гіпсовий відлиток був зроблений безпосередньо з відбитка статуї — ідеально відтворюючи кожну криву, кут і деталь, яку створив Мікеланджело. Інтенсивна творча робота відбулася один раз. Після цього стало питанням вірно відтворити ці риси. Сьогодні репліки Девіда з'являються всюди — від музейних зал до внутрішніх дворів казино Лас-Вегасу.
Точно так працює виведення в штучному інтелекті. Тренування великої мовної моделі схоже на оригінальний скульптурний процес Мікеланджело — обчислювально інтенсивний, часом затратний і вимагає багато ресурсів, оскільки модель поступово вивчає правильну «форму» мови через мільйони дрібних корекцій. Але використання навченої моделі — це виведення — більше схоже на створення репліки. Коли ви спілкуєтеся з ChatGPT, ви не навчаєте його мови з нуля, а використовуєте копію моделі, параметри якої (наприклад, точні криві та кути Давида) вже були вдосконалені.
Робочі навантаження виведення фундаментально відрізняються від навчання. Під час навчання потрібні великі, щільні кластери останніх відеокарт, таких як H100, для обробки інтенсивних обчислень, тоді як виведення може виконуватися на однопроцесорних серверах з використанням старіших обладнання, таких як A100 або навіть відеокарти для споживачів, що робить його значно більш ефективним з точки зору витрат. З огляду на це, робочі навантаження виведення мають свої власні унікальні вимоги:
Ці характеристики роблять робочі навантаження висновків ідеальними для моделей спотового ціноутворення. За спотовим ціноутворенням ресурси графічного процесора доступні зі значними знижками — часто на 30-50% нижчими за тарифи на вимогу — з розумінням того, що обслуговування може призупинитися, коли клієнтам із вищим пріоритетом знадобляться ресурси. Ця модель підходить для висновків, оскільки надмірне розгортання дозволяє робочим навантаженням швидко переходити на доступні графічні процесори, якщо їх переривати.
Враховуючи це тло графічних процесорів та обчислення в хмарі штучного інтелекту, ми зараз в положенні почати досліджувати, куди вписується криптовалюта в усе це. Давайте (нарешті) розберемося в цьому.
Проекти та звіти часто цитують спостереження Пітера Тіла, що «ШІ зосереджується, крипто децентралізується», коли обговорюють роль крипто в навчанні ШІ. Хоча заява Тіла безсумнівно є правдивою, ми тільки що побачили достатньо доказів очевидної переваги Big Tech в навчанні потужних ШІ - це часто неправильно використовується, щоб запропонувати, що крипто та децентралізовані комп'ютери пропонують основне рішення для збалансування впливу Big Tech.
Такі заяви відгукуються на попередні перебільшення потенціалу криптовалюти для революції соціальних медіа, геймінгу та безлічі інших галузей. Вони є не лише контрпродуктивними, а й, як я незабаром викладу, нереалістичними - принаймні в короткостроковій перспективі.
Замість цього я буду використовувати більш прагматичний підхід. Я буду вважати, що AI-стартап, який шукає обчислення, не цікавиться принципами децентралізації або наростаючою ідеологічною опозицією до великих технологічних компаній. Натомість, у них є проблема - вони хочуть мати доступ до надійного обчислення GPU за найнижчу можливу ціну. Якщо криптопроект може надати краще рішення для цієї проблеми, ніж некриптовані альтернативи, вони його використовуватимуть.
З цією метою спочатку давайте з'ясуємо, з ким конкурують криптопроекти. Раніше ми обговорювали різні категорії провайдерів хмарного штучного інтелекту - Великі технологічні компанії та гіпермасштаби, великі нові хмари, малі нові хмари, провайдери платформ та майданчики.
Основна теза, що стоїть за децентралізованим обчисленням (як і всі проекти DePIN), полягає в тому, що поточний ринок обчислень працює неефективно. Попит на GPU залишається надзвичайно високим, тоді як постачання розсіяне і недостатньо використовується в глобальних центрах обробки даних та окремих домогосподарствах. Більшість проектів у цьому секторі прямо конкурують з ринками, агрегуючи це розсіяне постачання для зменшення неефективностей.
Завершивши це, давайте подивимося, як ці проекти (а також ринки обчислень в цілому) можуть допомогти з різними завданнями ИШ - навчанням, налаштуванням та інференцією.
Про все по порядку. Ні, ASI не збирається навчатися на глобальній мережі децентралізованих графічних процесорів. Принаймні, не на нинішній траєкторії ШІ. І ось чому.
Раніше ми обговорювали, наскільки великими стають кластери базових моделей. Вам потрібно 100 000 найпотужніших GPU в світі, щоб хоча б почати конкурувати. Це число зростає з кожним роком. До 2026 року очікується, що вартість тренувального запуску перевищить 100 мільярдів доларів, що може вимагати мільйони GPU або більше.
Тільки великі технологічні компанії, підтримувані основними небоклаудами та прямими партнерствами з Nvidia, можуть зібрати кластери такого масштабу. Пам'ятайте, ми знаходимося в гонці за ШІ, і всі учасники є як високомотивованими, так і капіталізованими. Якщо є додатковий запас стількох графічних процесорів (що не так), то вони будуть першими, хто їх забере.
Навіть якщо криптопроєкт якимось чином накопичив необхідні обчислення, дві фундаментальні перешкоди перешкоджають децентралізованій розробці ASI:
По-перше, потрібно щоб великі кластери GPU були підключені, щоб працювати ефективно. Навіть якщо ці кластери будуть розділені між островами в містах, їх все одно потрібно буде підключати за допомогою присвячених оптичних волоконних ліній. Це неможливо в децентралізованому середовищі. Окрім закупівлі GPU, встановлення готових до використання центрів обробки даних, які підходять для штучного інтелекту, вимагає дотримання детального планування - зазвичай це процес тривалістю від одного до двох років. (xAI зробив це всього за 122 дні, але малоймовірно, що Ілон запустить токен найближчим часом).
По-друге, простого створення центру обробки даних зі штучним інтелектом недостатньо для народження надрозумного ШІ. Засновник Anthropic Даріо Амодей останнім часом пояснив, масштабування в штучному інтелекті подібно до хімічної реакції. Так само, як хімічна реакція вимагає кількох реагентів у точних пропорціях для продовження, успішне масштабування штучного інтелекту залежить від трьох необхідних компонентів, які зростають разом: більші мережі, триваліші часи навчання та більші набори даних. Якщо ви масштабуєте один компонент без інших, процес зупиняється.
Навіть якщо нам вдасться якимось чином накопичити обидва обчислення і змусити кластери працювати разом, нам все одно потрібні терабайти високоякісних даних, щоб навчена модель була хорошою. Без власних джерел даних Big Tech, капіталу для укладання багатомільйонних угод з онлайн-форумами та ЗМІ або існуючих моделей для генерації синтетичних даних, отримання адекватних навчальних даних неможливе.
Останнім часом було дещо побоювання, що закони масштабування можуть досягти плато, з потенційними LLM, що досягають стелі продуктивності. Деякі тлумачать це як відкриття для розвитку децентралізованого штучного інтелекту. Однак це нехтує важливим фактором - концентрацією талантів. Сьогодні великі технологічні компанії та лабораторії зі штучного інтелекту мають найкращих дослідників у світі. Будь-який прорив альтернативного шляху до AGI, ймовірно, з'явиться із цих центрів. З огляду на конкурентну ландшафті, такі відкриття залишаться в тісному криту.
Беручи до уваги всі ці аргументи, я впевнений на 99,99%, що навчання ШІ - навіть найпотужніших моделей у світі - не буде проводитися в рамках децентралізованого обчислювального проекту. У такому випадку, які моделі криптовалюти дійсно можуть допомогти навчити?
Щоб навчити моделі на окремих кластерах GPU, розташованих у різних географічних місцях, нам потрібно реалізувати паралелізм даних між ними. (Нагадаємо, що паралелізм даних - це спосіб, яким різні острови GPU, кожен з них працюючи з окремими частинами навчальних даних, синхронізуються між собою). Чим більша модель, яку навчають, тим більше даних потрібно обмінювати між цими островами. Як ми обговорювали, для фронтових моделей з понад трільйоном параметрів потрібна достатня пропускна здатність, щоб вимагати окремих оптичних волоконних з'єднань.
Однак для менших моделей вимоги до пропускної здатності зменшуються пропорційно. Недавні досягнення в алгоритмах навчання з низьким рівнем комунікації, особливо в затриманій синхронізації, створили перспективні можливості для навчання невеликих та середніх моделей у децентралізований спосіб. Дві команди проводять ці експериментальні зусилля.
Nous Research - це компанія-акселератор штучного інтелекту та провідний учасник у розробці відкритого джерела штучного інтелекту. Вони найбільш відомі своєю серією мовних моделей Hermes та інноваційними проектами, такими як World Sim. Раніше цього року вони протягом кількох місяців працювали на LLM-рейтинговій підмережі BitTensor. Вони спробували себе в децентралізованому обчисленні, випустивши DisTrOпроект "Розподілене навчання через Інтернет", де вони успішно тренували модель Llama-2 з 1,2 млрд параметрів, досягнувши зменшення вимог до між-GPU пропускної здатності в 857 разів.
Звіт DisTrO від Nous Research
Первинний інтелект, стартап, що розробляє інфраструктуру для децентралізованого штучного інтелекту в масштабі, має на меті агрегувати глобальні обчислювальні ресурси та забезпечити спільне навчання передових моделей за допомогою розподілених систем. Їх фреймворк OpenDiLoCo (реалізуючи метод DeepMind's Розподілений метод з низьким рівнем комунікації) успішно навчав мільярдну параметричну модель на двох континентах і трьох країнах, зберігаючи використання обчислень на рівні 90-95%.
Але як працюють ці децентралізовані тренувальні забіги?
Традиційний паралелізм даних вимагає, щоб графічні процесори ділилися та усереднювали свою вагу після кожного тренувального кроку, що неможливо через підключення до Інтернету. Натомість ці проєкти дозволяють кожному «острову» графічних процесорів тренуватися незалежно протягом сотень кроків перед синхронізацією. Подумайте про це як про незалежні дослідницькі групи, які працюють над одним і тим же проектом: замість того, щоб постійно перевіряти один одного, вони досягають значного прогресу самостійно, перш ніж поділитися своїми висновками.
DisTrO та OpenDiLoCo синхронізуються лише кожні 500 кроків, використовуючи подвійний підхід оптимізатора:
Коли вони синхронізуються, замість того, щоб ділитися всіма вагами, вони діляться «псевдоградієнтом» - фактично різницею між їх поточними вагами і вагами з останньої синхронізації. Це дуже ефективно, схоже на те, що ви ділитеся тільки тим, що змінилося в документі, а не надсилаєте весь документ кожного разу.
INTELLECT-1, практична реалізація OpenDiLoCo від Prime Intellect ще більше підтримує цей підхід, навчаючи 10B параметрів моделі - найбільший децентралізований навчальний процес на сьогоднішній день. Вони додали ключові оптимізації, такі як:
INTELLECT-1, навчений за допомогою понад 20 GPU кластерів, розподілених по всьому світу, недавно завершивпередшкільна підготовкаі незабаром буде випущений як повністю відкрита модель.
ІНТЕЛЕКТ-1 панель навчання
Такі команди, як Макрокосмосвикористовують схожі алгоритми донавчання моделейв екосистемі Bittensor.
Якщо ці децентралізовані алгоритми навчання продовжують покращуватися, вони можуть бути здатні підтримувати моделі до 100 мільярдів параметрів з наступним поколінням графічних процесорів. Навіть моделі цього розміру можуть бути дуже корисними для широкого спектру використання:
Файн-тюнінг - це процес взяття передньо навченої базової моделі (зазвичай відкрита від Meta, Mistral або Alibaba) та подальше навчання її на конкретному наборі даних для адаптації до певних завдань або доменів. Це потребує значно менше обчислювальних ресурсів, ніж навчання з нуля, оскільки модель вже вивчила загальні мовні закономірності і потребує лише налаштування своїх вагів для нового домену.
Визначення вимог до налаштування масштабу під час точного налаштування залежно від розміру моделі. Припускаючи тренування на H100:
З урахуванням цих технічних характеристик, точна настройка не потребує складних розподілених алгоритмів навчання, розглянутих раніше. Модель на вимогу, де розробники орендують кластери GPU на короткий, зосереджений період, забезпечує достатню підтримку. Децентралізовані ринки обчислювальних ресурсів з надійною доступністю GPU мають ідеальне положення для роботи з такими завданнями.
Висновок – це місце, де децентралізовані обчислювальні маркетплейси мають найчіткіший шлях до відповідності продукту ринку. За іронією долі, це найменш обговорюваний робочий процес у контексті децентралізованого навчання. Це пов'язано з двома факторами: висновкам не вистачає привабливості 100 000 тренувань «моделі бога» GPU, і частково через поточну фазу революції штучного інтелекту.
На сьогоднішній день більша частина комп'ютерів дійсно йде на навчання. Перегони за ASI призводять до величезних початкових інвестицій у навчальну інфраструктуру. Однак цей баланс неминуче змінюється в міру того, як програми штучного інтелекту переходять від досліджень до виробництва. Для того, щоб бізнес-модель, пов'язана зі штучним інтелектом, була стійкою, дохід, отриманий від висновків, повинен перевищувати витрати як на навчання, так і на висновки разом узяті. Хоча навчання GPT-4 було надзвичайно дорогим, це були одноразові витрати. Поточні витрати на обчислення — і шлях OpenAI до прибутковості — зумовлені обслуговуванням мільярдів запитів на висновки для клієнтів, які платять.
Ринок обчислень, децентралізований чи інший, за своєю природою агрегування різноманітних моделей графічних процесорів (старих і нових) з усього світу, опиняється в унікальному становищі для обслуговування робочих навантажень висновків.
Обчислювальні маркетплейси, як децентралізовані, так і традиційні, природно, досягають успіху в робочих навантаженнях висновків, агрегуючи різноманітні моделі графічних процесорів (як поточні, так і застарілі) по всьому світу. Притаманні їм переваги ідеально узгоджуються з вимогами висновків: широке географічне поширення, стабільний час безвідмовної роботи, резервування системи та сумісність між поколіннями графічних процесорів.
Ми обговорили різні робочі процеси, з якими може або не може допомогти децентралізоване обчислення. Тепер нам потрібно відповісти на ще одне важливе питання: чому розробник обрав би захист обчислень від децентралізованого постачальника порівняно з централізованим? Які переконливі переваги пропонують децентралізовані рішення?
Стейблкоїни досягли відповідності продукту ринку, пропонуючи чудову альтернативу традиційним транскордонним платежам. Важливим фактором є те, що стейблкоїни просто набагато дешевші! Аналогічно, єдиним найбільшим фактором, який впливає на вибір розробником штучного інтелекту хмарного провайдера, є вартість. Щоб постачальники децентралізованих обчислень могли ефективно конкурувати, вони повинні спочатку забезпечити вищі ціни.
Комп'ютерний маркетплейс, як і всі маркетплейси, є бізнесом мережевих ефектів. Чим більша пропозиція графічних процесорів на платформі, тим більша ліквідність і доступність для клієнтів, що, у свою чергу, приваблює більший попит. У міру зростання попиту це стимулює більше власників графічних процесорів приєднуватися до мережі, створюючи сприятливий цикл. Збільшення пропозиції також забезпечує більш конкурентоспроможне ціноутворення за рахунок кращого узгодження та скорочення часу простою. Коли клієнти можуть постійно знаходити потрібні їм обчислення за привабливими цінами, вони, швидше за все, створять тривалу технічну залежність від платформи, що ще більше посилить мережевий ефект.
Ця динаміка особливо потужна при виведенні на інференцію, де географічний розподіл постачання фактично може покращити пропозицію продукту, знизивши час затримки для кінцевих користувачів. Перша торгова площадка, яка досягне цього обертового колеса ліквідності на шкалі, матиме значну конкурентну перевагу, оскільки як постачальники, так і клієнти стикаються з витратами на переключення після інтеграції з інструментарієм і робочими процесами платформи.
Ефект куліс ринку GPU
На таких ринках, де переможець отримує все, запуск мережіі досягнення відповідної швидкості виходу на орбіту - найбільш критична фаза. У цьому випадку криптовалюта надає проектам децентралізованого обчислення дуже потужний інструмент, якого просто немає у їх централізованих конкурентів: токенові стимули.
Механіка може бути простою, але потужною. Протокол спочатку запустить токен, який включає графік інфляційних винагород, можливо, розподіляючи початкові алокації серед ранніх учасників через airdrop. Ці емісії токенів будуть служити основним інструментом для запуску обох сторін ринку.
Для постачальників GPU структура винагороди повинна бути ретельно розроблена для формування поведінки з боку постачальників. Постачальники отримували би токени, пропорційні до їх внеску в обчислювальну потужність та рівня використання, але система повинна виходити за межі простої лінійної винагороди. Протокол може впроваджувати динамічні множники винагороди, щоб вирівняти географічні або типи апаратного забезпечення - аналогічно до того, як Uber використовує підвищення цін для стимулювання водіїв у зонах з високим попитом.
Постачальник може отримати винагороду 1,5 рази більшу за надання обчислювальних можливостей в недосяжних регіонах або винагороду 2 рази більшу за надання тимчасово дефіцитних типів GPU. Додаткове розподілення системи винагород на основі постійної використаності би стимулювало постачальників підтримувати стабільну доступність, а не випадково переходити між платформами.
Зі сторони попиту клієнти отримували би токенові винагороди, які ефективно субсидували їх використання. Протокол може пропонувати збільшені винагороди за тривалі комітменти обчислень, що стимулює користувачів будувати глибше технічні залежності від платформи. Ці винагороди можуть бути додатково структуровані для вирішення стратегічних пріоритетів платформи, таких як захоплення попиту в певній географії.
Базові ставки для обчислень можуть бути збережені на рівні або трохи нижче ринкових ставок, з використанням протоколів оракули zkTLSщоб постійно контролювати та порівнювати ціни конкурентів. Винагороди у вигляді токенів служили б додатковим стимулом на основі цих конкурентних базових ставок. Ця подвійна модель ціноутворення дозволила б платформі зберігати конкурентоздатність цін, використовуючи токенові стимули для підтримки певних поведінкових моделей, що зміцнюють мережу.
Розподілуючи стимули в токенах, як постачальники, так і клієнти почнуть накопичувати певну частку в мережі. Хоча деякі, можливо, більшість, продаватимуть ці частки, інші будуть тримати їх, фактично стаючи зацікавленими сторонами та проповідниками платформи. Ці залучені учасники матимуть особистий інтерес у успіху мережі, сприяючи її зростанню та прийняттю поза своїм безпосереднім використанням чи наданням ресурсів обчислень.
З плином часу, коли мережа набирає потужність та встановлює стійкі мережеві ефекти, ці стимули в токенах можна поступово зменшувати. Природні переваги найбільшого ринку - краще забезпечення, вища використовуваність, ширша географічна покриття - стають самозберігаючими факторами зростання.
Як токенові стимули можуть прискорити ринок GPU
Хоча ціна і діапазон є критичними відмінностями, децентралізовані обчислювальні мережі вирішують зростаючу проблему: обмеження в роботі з централізованими постачальниками. Традиційні постачальники хмарних послуг вже продемонстрували свою готовність припиняти або припиняти надання послуг на підставі політики контенту та зовнішні тиски. Ці прецеденти породжують законні питання про те, як подібні політики можуть розповсюджуватися на розробку та впровадження моделей ШІ.
По мере того, как модели искусственного интеллекта становятся все более сложными и решают все более разнообразные задачи, существует реальная возможность того, что провайдеры облачных услуг могут вводить ограничения на тренировку и обслуживание моделей, аналогично существующим подходам к модерации контента. Это может затронуть не только NSFW-контент и спорные темы, но и законные случаи использования в таких областях, как медицинское изображение, научные исследования или творческое искусство, которые могут вызывать чрезмерно осторожные автоматические фильтры.
Децентралізована мережа пропонує альтернативу, дозволяючи учасникам ринку приймати власні інфраструктурні рішення, потенційно створюючи більш вільне та необмежене середовище для інновацій.
Зворотна сторона архітектури без дозволу полягає в тому, що конфіденційність стає складнішою. Коли обчислення розподіляється по мережі провайдерів, а не знаходиться в центрах даних однієї довіреної сутності, розробники повинні ретельно підходити до захисту даних. Хоча шифрування та середовища довіри можуть допомогти, існує вроджений компроміс між опором на цензуру та конфіденційністю, який розробники повинні регулювати відповідно до своїх конкретних вимог.
З урахуванням надзвичайного попиту на обчислення штучного інтелекту постачальники GPU можуть експлуатувати своє положення, щоб витягти максимальний прибуток від успішних клієнтів. В пост з минулого року, відомий розробник-одноосібник Пітер Левелс поділився тим, як він та інші розробники стикнулися зі збільшенням цін своїх постачальників на понад 600% після публічного розкриття доходів їхнього штучного інтелекту.
Децентралізовані системи можуть запропонувати протидію цій проблемі - бездовірне забезпечення виконання контрактів. Коли угоди кодуються на блокчейні, а не занурені в умови обслуговування, вони стають прозорими і незмінними. Постачальник не може произвольно підвищувати ціни або змінювати умови середині контракту, якщо зміни не були явно згодні з протоколом.
Поза ціноутворенням, децентралізовані мережі можуть використовувати довірені середовища виконання (TEEs)щоб забезпечити перевірні обчислення. Це забезпечує, що розробники фактично отримують ресурси GPU, за які вони платять, як в апаратних характеристиках, так і відведеному доступі. Наприклад, коли розробник платить за відведений доступ до восьми GPU H100 для навчання моделі, криптографічні докази можуть підтвердити, що їхні навантаження дійсно виконуються на H100s з повним обсягом пам'яті на GPU 80 ГБ, а не тихо знижені до карт меншого класу або ресурси, які діляться з іншими користувачами.
Децентралізовані комп'ютерні мережі можуть надати розробникам по-справжньому бездозвільні альтернативи. На відміну від традиційних постачальників, які вимагають обширних процесів KYC та перевірок кредитної історії, до цих мереж може приєднатися будь-хто і почати споживати або надавати обчислювальні ресурси. Це драматично знижує бар'єри для входу, особливо для розробників на ринках, що розвиваються, або тих, хто працює над експериментальними проектами.
Важливість цієї бездозвільної природи стає ще потужнішою, коли ми розглядаємо майбутнє AI-агентів. AI-агенти тільки починають знаходити свої опори, з вертикально інтегровані агентиочікується, що вона перевищить розмір індустрії SaaS. З подібними до gateПравда Термінал та Зеребро, ми бачимо перші ознаки агентів, які набувають автономії та вчаться використовувати зовнішні інструменти, такі як соціальні медіа та генератори зображень.
Оскільки ці автономні системи стають більш складними, вони можуть потребувати динамічного забезпечення власних обчислювальних ресурсів. Децентралізована мережа, де контракти можуть виконуватися безпосередньо за допомогою коду, а не людських посередників, є природною інфраструктурою для цього майбутнього. Агенти можуть автономно укладати контракти, відстежувати продуктивність та регулювати своє використання обчислювальних ресурсів в залежності від попиту — все це без необхідності втручання або затвердження людини.
Концепція децентралізованих обчислювальних мереж не нова - проекти намагалися демократизувати доступ до рідких обчислювальних ресурсів задовго до поточного буму штучного інтелекту.Render Networkпрацює з 2017 року, акумулюючи ресурси ГПУ для відображення комп'ютерної графіки.Акашзапущений у 2020 році, щоб створити відкритий ринок для загального обчислення. Обидва проєкти знайшли помірний успіх у своїх нішах, але зараз фокусуються на роботі зі штучним інтелектом.
Аналогічно, децентралізовані мережі зберігання, такі як gate.ioFilecoinіArweaveрозширюються в область обчислень. Вони розуміють, що зростанням штучного інтелекту як основного споживача як зберігання, так і обчислення набуває сенсу пропонувати інтегровані рішення.
Так само, як традиційні центри обробки даних борються за конкуренцію зі спеціалізованими AI-об'єктами, ці встановлені мережі стикаються з тяжким завданням проти AI-нативних рішень. Вони не мають ДНК для виконання складної оркестрації, необхідної для AI-навантажень. Замість цього вони знаходять свою опору, ставши постачальниками обчислювальних ресурсів для інших AI-специфічних мереж. Наприклад, як Render, так і Akash тепер роблять свої GPU доступними на ринку io.net.
Хто ці нові ринки зі штучним інтелектом?io.net- один з ранніх лідерів у сфері агрегації постачання корпоративних GPU з більш ніж 300 000 перевірених GPU в їхній мережі. Вони стверджують, що пропонують економію вартості до 90% порівняно з централізованими гравцями на ринку і щоденні заробітки понад 25 000 доларів США (річні виходять 9 мільйонів доларів США). Так само, Aethirагрегує понад 40 000 GPU (включаючи 4 000+ H100s) для обслуговування як справи штучного інтелекту, так і хмарних обчислень.
Раніше ми обговорювали, як Prime Intellect створює фреймворки для децентралізованої підготовки в масштабі. Окрім цих зусиль, вони також надають Ринок GPUде користувачі можуть орендувати H100 за запитом.Gensyn - ще один проект, який велику увагу приділяє децентралізованій підготовці, використовуючи схожу систему підготовки та підхід до ринку відеокарт.
Хоча всі ці ринки не залежать від завантаження (вони підтримують як навчання, так і виведення), кілька проектів спрямовані тільки на виведення - децентралізоване обчислювальне завантаження, яке нас найбільше захоплює. Головний серед них - Exo Labs, який дозволяє користувачам запускати LLM на рівні фронту на повсякденних пристроях. Вони розробили відкрите програмне забезпечення, яке дозволяє розподіляти завдання інтелектуального виведення штучного інтелекту по різних пристроях, таких як iPhone, Android та Mac. Вони недавно показалапрацює модель 70-B (масштабована до 400-B), розподілена по чотири M4 Pro Mac Minis.
Коли Сатоші запустив Bitcoin у 2008 році, його переваги - це цифрове золото з жорстким обмеженням постачання та гроші, що не підлягають цензурі - були виключно теоретичними. Традиційна фінансова система, незважаючи на свої недоліки, працювала. Центральні банки ще не розпочали безпрецедентну грошову емісію. Міжнародні санкції не були зброєю проти цілих економік. Потреба в альтернативі здавалася академічною, а не невідкладною.
Знадобилося десятиліття кількісного пом'якшення, кульмінацією якого стала грошова експансія епохи COVID, щоб теоретичні переваги біткойна кристалізувалися у відчутну цінність. Сьогодні, коли інфляція підриває заощадження, а геополітична напруженість загрожує домінуванню долара, роль біткойна як «цифрового золота» перетворилася з шифропанкової мрії на актив, прийнятий інститутами та національними державами.
Цей шаблон повторювався з стейблкоінами. Як тільки загальнопризначний блокчейн на базі Ethereum став доступним, стейблкоїни миттєво стали одним із найбільш міжнародних випадків використання. Однак це знадобилося років поступових поліпшень у технологіях та економіках країн, таких як Аргентина та Туреччина, щоб стейблкоіни перетворилися з нішевого криптовалютного інновації в критичну фінансову інфраструктуру, яка пересуває трильйони доларів щорічного обсягу.
Криптовалюта за своєю природою є оборонною технологією - інновації, які здаються зайвими в хороші часи, але стають важливими в кризові періоди. Потреба в цих рішеннях стає очевидною лише тоді, коли існуючі системи зазнають невдач або виявляють свої справжні кольори.
Сьогодні ми живемо в золоту епоху ШІ. Венчурний капітал вільно потоками, компанії змагаються пропонувати найнижчі ціни, і обмеження, якщо вони є, рідкісні. В такому середовищі децентралізовані альтернативи можуть здатися незачіпними. Чому мати справу з складнощами токеноміки та доказовими системами, коли традиційні постачальники працюють належним чином?
Але, керуючись головними технологічними хвилями минулого, ця доброта є тимчасовою. Ми ще тільки на початку революції штучного інтелекту. Поки технологія стигне і переможці змагання зі штучного інтелекту виявляться, їх справжня сила виявиться. Ті ж самі компанії, які сьогодні пропонують щедрий доступ, з часом встановлять контроль - через ціни, політику, дозволи.
Це не просто ще один технологічний цикл, який стоїть на карті. Штучний інтелект стає новим основою цивілізації - лінзою, через яку ми будемо обробляти інформацію, створювати мистецтво, приймати рішення і, в кінцевому рахунку, еволюціонувати як вид. Обчислення - це більше, ніж просто ресурс; це валюта самого інтелекту. Ті, хто контролюють його потік, визначатимуть психічний фронт людства.
Децентралізовані обчислення – це не про те, щоб пропонувати дешевші графічні процесори або більш гнучкі варіанти розгортання (хоча для успіху вони повинні забезпечувати і те, і інше). Йдеться про те, щоб доступ до штучного інтелекту — найбільш трансформаційної технології людства — залишався нецензурованим і суверенним. Це наш щит від неминучого майбутнього, де жменька компаній диктує не тільки те, хто може використовувати штучний інтелект, але і як вони можуть думати з його допомогою.
Ми будуємо ці системи сьогодні не тому, що вони є невідкладними, але тому, що вони будуть необхідними завтра. Коли штучний інтелект стане таким же фундаментальним для суспільства, як гроші, бездозволове обчислення не буде просто альтернативою - воно буде так само важливим для опору цифровому гегемонії, як Біткойн і стейблкоїни для опору фінансовому контролю.
Швидкість до штучного суперінтелекту може бути поза досягом децентралізованих систем. Але забезпечення доступності всім плодів цього інтелекту? Це варто бігти.