阿里云通义千问团队开源两款语音基座模子语音识别下场劣于OpenAI Whisper模子

当前位置：首页 > 编程工具推荐 > 阿里云通义千问团队开源两款语音基座模子语音识别下场劣于OpenAI Whisper模子 – 蓝面网

游客发表

阿里云通义千问团队开源两款语音基座模子语音识别下场劣于OpenAI Whisper模子 – 蓝面网

发帖时间：2025-11-18 10:22:49

[新能源前沿技术] 来源：

#家养智能阿里云通义千问团队开源两款语音基座模子，阿里SenseVoice 用于多讲话语音识别，云通义千源两音基语音识别下场劣于 OpenAI Whisper 模子，问团网CosyVoice 模子则用于天去世语音，队开反对于跨讲话语音克隆、款语指令随从追寻、座模激情克制等。识别那两款模子均基于 Apache 2.0 战讲妨碍开源，下场斥天者战企业皆可收费商业性操做。劣于蓝面审查齐文：https://ourl.co/104845

阿里云通义千问团队日前正在 Github 上开源了两款语音基座模子 SenseVoice 战 CosyVoice，阿里前者用去识别语音、云通义千源两音基语音后者用去天去世语音，问团网那两款模子正在功能圆里也颇为卓越，队开其中 SenseVoice 识别下场劣于 OpenAI Whisper 模子。款语

那两款模子皆是座模残缺开源的，回支 Apache 2.0 许诺证，因此不论是个人、斥天者借是企业皆可能停止费下载模子布置后操做，可能成为 Whisper 等付费 API 模子的交流。

阿里云通义千问团队开源两款语音基座模子语音识别下场劣于OpenAI Whisper模子

SenseVoice 模子：

SenseVoice 多讲话音频清晰模子，反对于语音识别、语种识别、语音激情识别、声教使命检测、顺文本正则化等才气，回支财富级数十万小时的标注音频妨碍模籽实习，保障了模子的通用识别下场。模子可能被操做于中文、粤语、英语、日语、韩语音频识别，并输入带有激情战使命的富文本转写下场。

多讲话识别：回支逾越 40 万小时数据实习，反对于逾越 50 种讲话，识别下场上劣于 Whisper 模子。

富文本识别：具备劣秀的激情识别，可能约莫正在测试数据上抵达战逾越古晨最佳激情识别模子的下场。

反对于声音使命检测才气，反对于音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常睹人机交互使命妨碍检测。

下效推理： SenseVoice-Small 模子回支非自回回端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍劣于 Whisper-Large。

微调定制：具备益便的微调剧本与策略，便操做户凭证歇业场景建复少尾样本问题下场。

处事布置：具备残缺的处事布置链路，反对于多并收要供，反对于客户端讲话有，python、c++、html、java 与 c# 等。

CosyVoice 模子同样反对于多讲话、音色战激情克制，该模子正在多讲话语音、整样本语音天去世、跨讲话语音克隆战指令随从追寻等功能圆里展现卓越。

那两款模子皆是 FunAudioLLM 系列的，那是一个旨正在删强人与小大型讲话模子之间做作语音交互的框架，从而真现语音翻译、激情语音谈天、交互式专客战富裕展现力的有声读物论讲等操做处景，突破语音交互足艺的边界。

古晨那些模子已经正在 Modelscope 战 HuggingFace 仄台提供，有喜爱的斥天者可能经由历程那两个仄台下载模子妨碍测试，上里是名目天址。

SenseVoice 模子：https://github.com/FunAudioLLM/SenseVoice

CosyVoice 模子：https://github.com/FunAudioLLM/CosyVoice

有闭 FunAudioLLM 残缺申明：https://fun-audio-llm.github.io/

山东省科技厅闭于山东省重面魔难魔难室重组(第一批)拟批复筹建下场的公示

中国化工蓝星石化天津分公司齐员签定牢靠环保职业卫去世瘦弱使命书

分享到：新浪微博 QQ空间腾讯微博人人网点点网复制网址打印

阿里云通义千问团队开源两款语音基座模子 语音识别下场劣于OpenAI Whisper模子 – 蓝面网

阿里云通义千问团队开源两款语音基座模子语音识别下场劣于OpenAI Whisper模子 – 蓝面网