Qwen Membuka Sumber Model ASR Lanjutan dan Penyelarasan Paksa Dengan Kemampuan Multi-Bahasa

MpostMediaGroup · 2026-01-29T14:41:12+00:00

Alibaba Cloud telah membuka sumber model Qwen3-ASR dan Qwen3-ForcedAligner-nya, mencapai pengenalan suara dan penyelarasan tingkat lanjut dalam 52 bahasa dengan akurasi dan efisiensi tinggi dalam kondisi yang menantang.

MpostMediaGroup

2026-01-29 14:41:12

Pembuatan abstrak sedang berlangsung

Secara Singkat

Alibaba Cloud telah merilis sumber terbuka model AI Qwen3-ASR dan Qwen3-ForcedAligner, memberikan performa pengenalan suara dan penyelarasan paksa terkini di berbagai bahasa dan kondisi akustik yang menantang.

Alibaba Cloud mengumumkan bahwa mereka telah menjadikan model AI Qwen3-ASR dan Qwen3-ForcedAligner sebagai sumber terbuka, menawarkan alat canggih untuk pengenalan suara dan penyelarasan paksa.

Keluarga Qwen3-ASR mencakup dua model all-in-one, Qwen3-ASR-1.7B dan Qwen3-ASR-0.6B, yang mendukung identifikasi bahasa dan transkripsi di 52 bahasa dan aksen, memanfaatkan data suara berskala besar dan model dasar Qwen3-Omni.

Pengujian internal menunjukkan bahwa model 1.7B memberikan akurasi terkini di antara sistem ASR sumber terbuka, sementara versi 0.6B menyeimbangkan kinerja dan efisiensi, mampu mentranskripsi 2.000 detik suara dalam satu detik dengan tingkat konkurensi tinggi.

Model Qwen3-ForcedAligner-0.6B menggunakan pendekatan LLM non-autoregressive untuk menyelaraskan teks dan suara dalam 11 bahasa, mengungguli solusi penyelarasan paksa terkemuka dari segi kecepatan dan akurasi.

Alibaba Cloud juga merilis kerangka kerja inferensi komprehensif di bawah lisensi Apache 2.0, mendukung streaming, pemrosesan batch, prediksi cap waktu, dan fine-tuning, bertujuan mempercepat penelitian dan aplikasi praktis dalam pemahaman audio.

Model Qwen3-ASR dan Qwen3-ForcedAligner Menunjukkan Akurasi dan Efisiensi Terdepan

Alibaba Cloud telah merilis hasil performa untuk model Qwen3-ASR dan Qwen3-ForcedAligner, menunjukkan akurasi dan efisiensi terdepan di berbagai tugas pengenalan suara.

Model Qwen3-ASR-1.7B mencapai hasil terkini di antara sistem sumber terbuka, mengungguli API komersial dan model sumber terbuka lainnya dalam pengenalan bahasa Inggris, multibahasa, dan dialek Tionghoa, termasuk Kanton dan 22 varian regional.

Model ini mempertahankan akurasi yang andal dalam kondisi akustik yang menantang, seperti lingkungan sinyal-ke-bising rendah, suara anak-anak atau lansia, dan bahkan transkripsi suara nyanyian, dengan tingkat kesalahan kata rata-rata sebesar 13,91% dalam bahasa Tionghoa dan 14,60% dalam bahasa Inggris dengan latar belakang musik.

Qwen3-ASR-0.6B yang lebih kecil menyeimbangkan akurasi dan efisiensi, memberikan throughput tinggi dan latensi rendah di bawah tingkat konkurensi tinggi, mampu mentranskripsi hingga lima jam suara secara online asinkron dengan tingkat konkurensi 128.

Sementara itu, Qwen3-ForcedAligner-0.6B mengungguli model penyelarasan paksa end-to-end terkemuka termasuk Nemo-Forced-Aligner, WhisperX, dan Monotonic-Aligner, menawarkan cakupan bahasa yang lebih luas, akurasi cap waktu, dan dukungan untuk berbagai panjang suara dan audio.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.