DeepSeek, штаб-квартира якої знаходиться в Ханчжоу, Китай, - це стартап зі штучним інтелектом, який у грудні 2024 року випустив значну мовну модель DeepSeek-V3, що привернула увагу глобальної галузі штучного інтелекту. Ця модель має 671 мільярд параметрів, але навчання її тривало лише два місяці за вартістю 5,58 мільйона доларів, що значно менше, ніж витрати інших технологічних гігантів. DeepSeek-V3 показує вражаючі результати серед відкритих моделей та є на рівні з найбільш передовими моделями в світі. Компанія оптимізувала процес навчання, щоб знизити витрати, використовуючи близько 2,78 мільйонів годин Nvidia H800 GPU, вироблених в Китаї. Це свідчить про значний прогрес китайських компаній зі штучного інтелекту в отриманні передових напівпровідникових матеріалів для навчання AI, незважаючи на обмеження з боку США. Успіх DeepSeek викликав стурбованість в американській технологічній галузі, акції Nvidia та інших технологічних компаній стрімко впали. Експерти вважають, що за допомогою відкритих технологій та ефективних методів навчання DeepSeek досяг високої продуктивності за набагато менші кошти порівняно з американськими конкурентами. Крім того, DeepSeek вже опублікував вихідний код моделі та детальну технічну інформацію, що дозволяє дослідникам та розробникам з усього світу ознайомитися з цією технологією та вдосконалити її. Ця прозорість порівнюється з більш консервативним підходом провідних американських компаній зі штучного інтелекту і може змінити спосіб розробки моделей майбутніх технологічних компаній.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
#Deepseek Goes Viral
DeepSeek, штаб-квартира якої знаходиться в Ханчжоу, Китай, - це стартап зі штучним інтелектом, який у грудні 2024 року випустив значну мовну модель DeepSeek-V3, що привернула увагу глобальної галузі штучного інтелекту. Ця модель має 671 мільярд параметрів, але навчання її тривало лише два місяці за вартістю 5,58 мільйона доларів, що значно менше, ніж витрати інших технологічних гігантів.
DeepSeek-V3 показує вражаючі результати серед відкритих моделей та є на рівні з найбільш передовими моделями в світі. Компанія оптимізувала процес навчання, щоб знизити витрати, використовуючи близько 2,78 мільйонів годин Nvidia H800 GPU, вироблених в Китаї. Це свідчить про значний прогрес китайських компаній зі штучного інтелекту в отриманні передових напівпровідникових матеріалів для навчання AI, незважаючи на обмеження з боку США.
Успіх DeepSeek викликав стурбованість в американській технологічній галузі, акції Nvidia та інших технологічних компаній стрімко впали. Експерти вважають, що за допомогою відкритих технологій та ефективних методів навчання DeepSeek досяг високої продуктивності за набагато менші кошти порівняно з американськими конкурентами.
Крім того, DeepSeek вже опублікував вихідний код моделі та детальну технічну інформацію, що дозволяє дослідникам та розробникам з усього світу ознайомитися з цією технологією та вдосконалити її. Ця прозорість порівнюється з більш консервативним підходом провідних американських компаній зі штучного інтелекту і може змінити спосіб розробки моделей майбутніх технологічних компаній.