概要Alibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAligner AIモデルをオープンソース化し、複数の言語や難しい音響条件において最先端の音声認識と強制アラインメント性能を提供しています。Alibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAligner AIモデルをオープンソース化したことを発表し、音声認識と強制アラインメントの高度なツールを提供しています。Qwen3-ASRファミリーには、Qwen3-ASR-1.7BとQwen3-ASR-0.6Bの2つのオールインワンモデルが含まれ、52の言語とアクセントにわたる言語識別と文字起こしをサポートし、大規模な音声データとQwen3-Omni基盤モデルを活用しています。内部テストによると、1.7BモデルはオープンソースのASRシステムの中で最先端の精度を実現しており、0.6Bバージョンはパフォーマンスと効率のバランスを取りながら、高い同時処理能力で1秒間に2,000秒の音声を文字起こし可能です。Qwen3-ForcedAligner-0.6Bモデルは、非自己回帰型LLMアプローチを用いて、11の言語でテキストと音声を整合させ、速度と精度の両面で主要な強制アラインメントソリューションを上回っています。Alibaba Cloudはまた、ストリーミング、バッチ処理、タイムスタンプ予測、ファインチューニングをサポートする包括的な推論フレームワークをApache 2.0ライセンスの下でリリースし、音声理解の研究と実用化を加速させることを目的としています。## Qwen3-ASRとQwen3-ForcedAlignerモデルは、最先端の精度と効率を示すAlibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAlignerモデルの性能結果を公開し、多様な音声認識タスクにおいて高い精度と効率を実証しています。Qwen3-ASR-1.7Bモデルは、オープンソースシステムの中で最先端の結果を達成し、商用APIや他のオープンソースモデルを上回る英語、多言語、中国語方言(広東語や22の地域方言を含む)の認識性能を示しています。信号対雑音比が低い環境、子供や高齢者の音声、歌唱声の文字起こしなど、難しい音響条件でも信頼できる精度を維持し、中国語で平均単語誤り率13.91%、英語で14.60%を達成しています。小型のQwen3-ASR-0.6Bは、精度と効率のバランスを取り、高スループットと低遅延を実現し、128の同時処理能力で最大5時間の音声をオンライン非同期モードで文字起こし可能です。一方、Qwen3-ForcedAligner-0.6Bは、Nemo-Forced-Aligner、WhisperX、Monotonic-Alignerなどの主要なエンドツーエンドの強制アラインメントモデルを上回り、より広範な言語カバレッジ、タイムスタンプの精度、多様な音声と音声長に対応しています。
Qwen、高度なASRおよび強制アライメントモデルをオープンソース化、多言語対応
概要
Alibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAligner AIモデルをオープンソース化し、複数の言語や難しい音響条件において最先端の音声認識と強制アラインメント性能を提供しています。
Alibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAligner AIモデルをオープンソース化したことを発表し、音声認識と強制アラインメントの高度なツールを提供しています。
Qwen3-ASRファミリーには、Qwen3-ASR-1.7BとQwen3-ASR-0.6Bの2つのオールインワンモデルが含まれ、52の言語とアクセントにわたる言語識別と文字起こしをサポートし、大規模な音声データとQwen3-Omni基盤モデルを活用しています。
内部テストによると、1.7BモデルはオープンソースのASRシステムの中で最先端の精度を実現しており、0.6Bバージョンはパフォーマンスと効率のバランスを取りながら、高い同時処理能力で1秒間に2,000秒の音声を文字起こし可能です。
Qwen3-ForcedAligner-0.6Bモデルは、非自己回帰型LLMアプローチを用いて、11の言語でテキストと音声を整合させ、速度と精度の両面で主要な強制アラインメントソリューションを上回っています。
Alibaba Cloudはまた、ストリーミング、バッチ処理、タイムスタンプ予測、ファインチューニングをサポートする包括的な推論フレームワークをApache 2.0ライセンスの下でリリースし、音声理解の研究と実用化を加速させることを目的としています。
Qwen3-ASRとQwen3-ForcedAlignerモデルは、最先端の精度と効率を示す
Alibaba Cloudは、Qwen3-ASRおよびQwen3-ForcedAlignerモデルの性能結果を公開し、多様な音声認識タスクにおいて高い精度と効率を実証しています。
Qwen3-ASR-1.7Bモデルは、オープンソースシステムの中で最先端の結果を達成し、商用APIや他のオープンソースモデルを上回る英語、多言語、中国語方言(広東語や22の地域方言を含む)の認識性能を示しています。
信号対雑音比が低い環境、子供や高齢者の音声、歌唱声の文字起こしなど、難しい音響条件でも信頼できる精度を維持し、中国語で平均単語誤り率13.91%、英語で14.60%を達成しています。
小型のQwen3-ASR-0.6Bは、精度と効率のバランスを取り、高スループットと低遅延を実現し、128の同時処理能力で最大5時間の音声をオンライン非同期モードで文字起こし可能です。
一方、Qwen3-ForcedAligner-0.6Bは、Nemo-Forced-Aligner、WhisperX、Monotonic-Alignerなどの主要なエンドツーエンドの強制アラインメントモデルを上回り、より広範な言語カバレッジ、タイムスタンプの精度、多様な音声と音声長に対応しています。