Alibaba Cloud відкрила вихідний код своїх моделей штучного інтелекту Qwen3-ASR та Qwen3-ForcedAligner, забезпечуючи передові показники розпізнавання мови та примусового вирівнювання для кількох мов і складних акустичних умов.
Alibaba Cloud оголосила, що зробила свої моделі штучного інтелекту Qwen3-ASR та Qwen3-ForcedAligner відкритим кодом, пропонуючи передові інструменти для розпізнавання мови та примусового вирівнювання
Сімейство Qwen3-ASR включає дві універсальні моделі, Qwen3-ASR-1.7B та Qwen3-ASR-0.6B, які підтримують визначення мови та транскрипцію понад 52 мовами та акцентами, використовуючи великомасштабні дані про мову та базову модель Qwen3-Omni
Внутрішні тести показують, що модель 1.7B забезпечує передову точність серед відкритих систем ASR, тоді як версія 0.6B балансуватиме продуктивність і ефективність, здатна транскрибувати 2000 секунд мови за одну секунду з високою одночасністю
Модель Qwen3-ForcedAligner-0.6B використовує неавторегресивний підхід LLM для вирівнювання тексту і мови на 11 мовах, перевершуючи провідні рішення для примусового вирівнювання за швидкістю та точністю
Alibaba Cloud також випустила комплексну інференційну платформу під ліцензією Apache 2.0, яка підтримує потокову обробку, пакетну обробку, прогнозування часових позначок і тонке налаштування, спрямовану на прискорення досліджень і практичних застосувань у галузі аудіо розуміння.
Моделі Qwen3-ASR та Qwen3-ForcedAligner демонструють провідну точність і ефективність
Alibaba Cloud опублікувала результати продуктивності своїх моделей Qwen3-ASR та Qwen3-ForcedAligner, що демонструють провідну точність і ефективність у різних завданнях розпізнавання мови
Модель Qwen3-ASR-1.7B досягає передових результатів серед відкритих систем, перевершуючи комерційні API та інші відкриті моделі у розпізнаванні англійської, багатомовних та китайських діалектів, включаючи кантонську та 22 регіональні варіанти
Вона зберігає надійну точність у складних акустичних умовах, таких як низький рівень сигналу та шуму, мова дітей або літніх людей, а також транскрипція співу, досягаючи середнього рівня помилок у словах 13.91% у китайській та 14.60% у англійській мові з фоновою музикою.
Менша модель Qwen3-ASR-0.6B балансуватиме точність і ефективність, забезпечуючи високий пропуск і низьку затримку за високої одночасності, здатна транскрибувати до п’яти годин мови в онлайн-асинхронному режимі при одночасності 128
Тим часом, модель Qwen3-ForcedAligner-0.6B перевершує провідні моделі для кінцевого примусового вирівнювання, такі як Nemo-Forced-Aligner, WhisperX і Monotonic-Aligner, пропонуючи кращий охоплення мов, точність часових позначок і підтримку різної довжини мови та аудіо.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Qwen відкриває вихідний код передових моделей ASR та примусового вирівнювання з багатомовними можливостями
Коротко
Alibaba Cloud відкрила вихідний код своїх моделей штучного інтелекту Qwen3-ASR та Qwen3-ForcedAligner, забезпечуючи передові показники розпізнавання мови та примусового вирівнювання для кількох мов і складних акустичних умов.
Alibaba Cloud оголосила, що зробила свої моделі штучного інтелекту Qwen3-ASR та Qwen3-ForcedAligner відкритим кодом, пропонуючи передові інструменти для розпізнавання мови та примусового вирівнювання
Сімейство Qwen3-ASR включає дві універсальні моделі, Qwen3-ASR-1.7B та Qwen3-ASR-0.6B, які підтримують визначення мови та транскрипцію понад 52 мовами та акцентами, використовуючи великомасштабні дані про мову та базову модель Qwen3-Omni
Внутрішні тести показують, що модель 1.7B забезпечує передову точність серед відкритих систем ASR, тоді як версія 0.6B балансуватиме продуктивність і ефективність, здатна транскрибувати 2000 секунд мови за одну секунду з високою одночасністю
Модель Qwen3-ForcedAligner-0.6B використовує неавторегресивний підхід LLM для вирівнювання тексту і мови на 11 мовах, перевершуючи провідні рішення для примусового вирівнювання за швидкістю та точністю
Alibaba Cloud також випустила комплексну інференційну платформу під ліцензією Apache 2.0, яка підтримує потокову обробку, пакетну обробку, прогнозування часових позначок і тонке налаштування, спрямовану на прискорення досліджень і практичних застосувань у галузі аудіо розуміння.
Моделі Qwen3-ASR та Qwen3-ForcedAligner демонструють провідну точність і ефективність
Alibaba Cloud опублікувала результати продуктивності своїх моделей Qwen3-ASR та Qwen3-ForcedAligner, що демонструють провідну точність і ефективність у різних завданнях розпізнавання мови
Модель Qwen3-ASR-1.7B досягає передових результатів серед відкритих систем, перевершуючи комерційні API та інші відкриті моделі у розпізнаванні англійської, багатомовних та китайських діалектів, включаючи кантонську та 22 регіональні варіанти
Вона зберігає надійну точність у складних акустичних умовах, таких як низький рівень сигналу та шуму, мова дітей або літніх людей, а також транскрипція співу, досягаючи середнього рівня помилок у словах 13.91% у китайській та 14.60% у англійській мові з фоновою музикою.
Менша модель Qwen3-ASR-0.6B балансуватиме точність і ефективність, забезпечуючи високий пропуск і низьку затримку за високої одночасності, здатна транскрибувати до п’яти годин мови в онлайн-асинхронному режимі при одночасності 128
Тим часом, модель Qwen3-ForcedAligner-0.6B перевершує провідні моделі для кінцевого примусового вирівнювання, такі як Nemo-Forced-Aligner, WhisperX і Monotonic-Aligner, пропонуючи кращий охоплення мов, точність часових позначок і підтримку різної довжини мови та аудіо.