Qwen открывает исходный код передовых моделей ASR и принудительного выравнивания с многоязычными возможностями

robot
Генерация тезисов в процессе

Кратко

Alibaba Cloud выпустила в открытый доступ свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner, обеспечивая передовые показатели распознавания речи и принудительного выравнивания для нескольких языков и сложных акустических условий.

Qwen Open-Sources Advanced ASR And Forced Alignment Models With Multi-Language Capabilities

Alibaba Cloud объявила, что сделала свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner открытым исходным кодом, предоставляя передовые инструменты для распознавания речи и принудительного выравнивания.

Семейство Qwen3-ASR включает две универсальные модели, Qwen3-ASR-1.7B и Qwen3-ASR-0.6B, которые поддерживают определение языка и транскрипцию на 52 языках и диалектах, используя крупномасштабные данные о речи и базовую модель Qwen3-Omni.

Внутренние тесты показывают, что модель 1.7B обеспечивает передовую точность среди систем ASR с открытым исходным кодом, в то время как версия 0.6B балансирует производительность и эффективность, способна транскрибировать 2000 секунд речи за одну секунду при высокой параллельности.

Модель Qwen3-ForcedAligner-0.6B использует неавторегрессивный подход LLM для выравнивания текста и речи на 11 языках, превосходя ведущие решения по скорости и точности принудительного выравнивания.

Alibaba Cloud также выпустила комплексную инфраструктурную платформу под лицензией Apache 2.0, поддерживающую потоковую обработку, пакетную обработку, предсказание временных меток и донастройку, что направлено на ускорение исследований и практических приложений в области аудио понимания.

Модели Qwen3-ASR и Qwen3-ForcedAligner демонстрируют передовую точность и эффективность

Alibaba Cloud опубликовала результаты производительности своих моделей Qwen3-ASR и Qwen3-ForcedAligner, демонстрирующие ведущую точность и эффективность в различных задачах распознавания речи.

Модель Qwen3-ASR-1.7B достигает передовых результатов среди систем с открытым исходным кодом, превосходя коммерческие API и другие модели с открытым исходным кодом в распознавании английского, мультиязычного и китайского диалектов, включая кантонский и 22 региональных варианта.

Она сохраняет надежную точность в сложных акустических условиях, таких как низкий уровень сигнала и шума, речь детей или пожилых людей, а также транскрипцию пения, достигая средних показателей ошибок слов 13,91% на китайском и 14,60% на английском при фоновом музыкальном сопровождении.

Меньшая модель Qwen3-ASR-0.6B балансирует точность и эффективность, обеспечивая высокую пропускную способность и низкую задержку при высокой параллельности, способна транскрибировать до пяти часов речи в онлайн-асинхронном режиме при параллельности 128.

Модель Qwen3-ForcedAligner-0.6B превосходит ведущие модели принудительного выравнивания end-to-end, такие как Nemo-Forced-Aligner, WhisperX и Monotonic-Aligner, предлагая расширенное покрытие языков, точность временных меток и поддержку различных длины речи и аудио.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$3.42KДержатели:3
    0.72%
  • РК:$5.04KДержатели:2
    9.10%
  • РК:$3.26KДержатели:1
    0.00%
  • РК:$3.26KДержатели:1
    0.00%
  • РК:$3.26KДержатели:1
    0.00%
  • Закрепить