DeepSeek, стартап по искусственному интеллекту, базирующийся в Ханчжоу, Китай, представил в конце декабря 2024 года свою крупную языковую модель DeepSeek-V3, вызвавшую внимание всей мировой индустрии искусственного интеллекта. Эта модель имеет 671 миллиард параметров, но ее обучение заняло всего около двух месяцев и обошлось в 558 миллионов долларов, что значительно меньше затрат крупных технологических гигантов. DeepSeek-V3 впечатляет в открытых моделях и не уступает самым передовым моделям в мире. Компания оптимизировала процесс обучения для снижения затрат, используя около 2.78 миллионов часов работы графического процессора Nvidia H800, произведенного в Китае. Это показывает значительный прогресс китайских компаний в области получения передовых полупроводниковых материалов, несмотря на ограничения со стороны США, необходимые для обучения искусственного интеллекта. Успех DeepSeek вызвал беспокойство в американской технологической отрасли, и акции Nvidia и других технологических компаний резко упали. Эксперты считают, что DeepSeek смог добиться высокой производительности при гораздо более низких затратах по сравнению с американскими конкурентами благодаря использованию открытых технологий и эффективным методам обучения. Кроме того, DeepSeek уже опубликовал исходный код модели и подробные технические объяснения, что позволяет исследователям и разработчикам со всего мира получить доступ к этой технологии и улучшить ее. Эта прозрачность в ярком контрасте с более консервативным подходом лучших американских компаний по искусственному интеллекту и может изменить способ разработки моделей технологическими компаниями в будущем.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
#Deepseek Goes Viral
DeepSeek, стартап по искусственному интеллекту, базирующийся в Ханчжоу, Китай, представил в конце декабря 2024 года свою крупную языковую модель DeepSeek-V3, вызвавшую внимание всей мировой индустрии искусственного интеллекта. Эта модель имеет 671 миллиард параметров, но ее обучение заняло всего около двух месяцев и обошлось в 558 миллионов долларов, что значительно меньше затрат крупных технологических гигантов.
DeepSeek-V3 впечатляет в открытых моделях и не уступает самым передовым моделям в мире. Компания оптимизировала процесс обучения для снижения затрат, используя около 2.78 миллионов часов работы графического процессора Nvidia H800, произведенного в Китае. Это показывает значительный прогресс китайских компаний в области получения передовых полупроводниковых материалов, несмотря на ограничения со стороны США, необходимые для обучения искусственного интеллекта.
Успех DeepSeek вызвал беспокойство в американской технологической отрасли, и акции Nvidia и других технологических компаний резко упали. Эксперты считают, что DeepSeek смог добиться высокой производительности при гораздо более низких затратах по сравнению с американскими конкурентами благодаря использованию открытых технологий и эффективным методам обучения.
Кроме того, DeepSeek уже опубликовал исходный код модели и подробные технические объяснения, что позволяет исследователям и разработчикам со всего мира получить доступ к этой технологии и улучшить ее. Эта прозрачность в ярком контрасте с более консервативным подходом лучших американских компаний по искусственному интеллекту и может изменить способ разработки моделей технологическими компаниями в будущем.