Qwen Mở Nguồn Các Mô Hình Nhận Diện Giọng Nói Nâng Cao Và Căn Chỉnh Buộc Với Khả Năng Đa Ngôn Ngữ

robot
Đang tạo bản tóm tắt

Tóm tắt

Alibaba Cloud đã mở mã nguồn các mô hình AI Qwen3-ASR và Qwen3-ForcedAligner, mang lại hiệu suất nhận dạng giọng nói và căn chỉnh bắt buộc hàng đầu trên nhiều ngôn ngữ và điều kiện âm thanh khó khăn.

Qwen Open-Sources Advanced ASR And Forced Alignment Models With Multi-Language Capabilities

Alibaba Cloud thông báo rằng họ đã mở mã nguồn các mô hình AI Qwen3-ASR và Qwen3-ForcedAligner, cung cấp các công cụ tiên tiến cho nhận dạng giọng nói và căn chỉnh bắt buộc.

Gia đình Qwen3-ASR bao gồm hai mô hình tất cả trong một, Qwen3-ASR-1.7B và Qwen3-ASR-0.6B, hỗ trợ nhận dạng ngôn ngữ và phiên âm trên 52 ngôn ngữ và giọng địa phương, dựa trên dữ liệu giọng nói quy mô lớn và mô hình nền Qwen3-Omni.

Kiểm tra nội bộ cho thấy mô hình 1.7B đạt độ chính xác hàng đầu trong các hệ thống ASR mã nguồn mở, trong khi phiên bản 0.6B cân bằng giữa hiệu suất và hiệu quả, có khả năng phiên âm 2.000 giây giọng nói trong một giây với độ đồng bộ cao.

Mô hình Qwen3-ForcedAligner-0.6B sử dụng phương pháp LLM không tự hồi quy để căn chỉnh văn bản và giọng nói trong 11 ngôn ngữ, vượt trội hơn các giải pháp căn chỉnh bắt buộc hàng đầu về tốc độ và độ chính xác.

Alibaba Cloud cũng đã phát hành một khung inference toàn diện theo giấy phép Apache 2.0, hỗ trợ streaming, xử lý theo lô, dự đoán timestamp và tinh chỉnh, nhằm thúc đẩy nghiên cứu và ứng dụng thực tiễn trong hiểu biết âm thanh.

Các Mô Hình Qwen3-ASR Và Qwen3-ForcedAligner Cho Thấy Độ Chính Xác Và Hiệu Quả Dẫn Đầu

Alibaba Cloud đã công bố kết quả hiệu suất của các mô hình Qwen3-ASR và Qwen3-ForcedAligner, thể hiện độ chính xác và hiệu quả hàng đầu trong các nhiệm vụ nhận dạng giọng nói đa dạng.

Mô hình Qwen3-ASR-1.7B đạt kết quả hàng đầu trong các hệ thống mã nguồn mở, vượt qua các API thương mại và các mô hình mã nguồn mở khác trong nhận dạng tiếng Anh, đa ngôn ngữ và tiếng Trung, bao gồm Cantonese và 22 biến thể vùng miền.

Nó duy trì độ chính xác đáng tin cậy trong điều kiện âm thanh khó khăn, như môi trường tín hiệu-ồn thấp, giọng nói của trẻ em hoặc người già, và thậm chí phiên âm giọng hát, đạt tỷ lệ lỗi từ vựng trung bình 13.91% trong tiếng Trung và 14.60% trong tiếng Anh khi có nhạc nền.

Phiên bản nhỏ hơn Qwen3-ASR-0.6B cân bằng giữa độ chính xác và hiệu quả, cung cấp khả năng xử lý cao và độ trễ thấp dưới độ đồng bộ cao, có khả năng phiên âm lên đến năm giờ giọng nói trong chế độ không đồng bộ trực tuyến với độ đồng bộ 128.

Trong khi đó, Qwen3-ForcedAligner-0.6B vượt trội hơn các mô hình căn chỉnh bắt buộc end-to-end hàng đầu như Nemo-Forced-Aligner, WhisperX và Monotonic-Aligner, cung cấp phạm vi ngôn ngữ vượt trội, độ chính xác timestamp và hỗ trợ các độ dài giọng nói và âm thanh đa dạng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$3.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.27KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.26KNgười nắm giữ:1
    0.00%
  • Ghim