Voice/歌声生成模型评估：从 TTS 到 SVS 的完整技术图谱

核心论断：TTS（文字转语音）与 SVS（歌声合成）是两条平行赛道，评估体系和最优模型均不同。不了解这一边界，选错工具事倍功半。MiniMax Speech-02-HD 是目前 TTS 领域 ELO 第一，但它做不了歌声；歌声生成需要 Suno、Udio 或 ACE-Step 这类专用架构。

随着 2026 年 AI 语音合成进入爆发期，市场上涌现出数十个 TTS 和歌声生成产品，但评估标准极度分散——有人用 MOS，有人用 PESQ，有人只看 ELO 排行榜，有人用 WER 衡量可懂度。不同指标适用不同场景，盲目套用会得出错误结论。

本研报从评估体系、歌声生成主流方案、TTS 评估工具三个公开维度展开，Pro 部分深入落地建议、MiniMax Speech-02-HD 对比矩阵与开源/商用综合推荐。

§1

声音质量评估模型与指标体系

主观 / 有参考客观 / 无参考客观三大类，覆盖 MOS、PESQ、UTMOS 等 6 个核心指标

1.1 主观评估方法

主观评估仍是语音质量评估的"金标准"，三种主流方式各有适用场景：

指标	说明	优缺点
MOS（Mean Opinion Score）	人工评分 1-5 分，覆盖自然度、可懂度、整体印象	准确但昂贵、耗时、不可复现；众包评估质量参差
MUSHRA	多刺激隐藏参考锚点测试，评分 0-100	更精细，适合专业评估；需有参考音频，成本高
AB Test / ELO	盲听对比，如 Artificial Analysis Speech Arena^[1]	消除偏见，样本量大时结论可靠；需大量评测样本

1.2 客观评估（有参考音频）

需要提供原始"干净"参考音频，适合编解码器和语音增强场景：

工具	说明	适用场景
PESQ（ITU-T P.862）	感知语音质量评估，需要原始参考音频，输出 -0.5~4.5 分	语音编解码器、VoIP 质量测试
POLQA（ITU-T P.863）	PESQ 升级版，支持超宽带和全频带，相关性更高	高保真语音评估、5G 音频
ESTOI	扩展短时客观可懂度，衡量语音被理解的程度	语音增强、降噪系统
SpeechBERTScore	基于 BERT 表征的语音相似度，对语义保持度敏感	语音合成内容准确性评估

1.3 客观评估（无参考音频）— 重点推荐

无需原始参考音频，直接对合成语音打分，是 TTS 评估中最实用的一类：^[5]^[6]

工具	说明	适用场景
UTMOS	基于 SSL（自监督学习）的 MOS 预测模型，使用 BLSTM + 对比学习，与人类评分高度相关^[5]	TTS/语音合成/编解码器日常评估首选
DNSMOS	微软深度噪声抑制 MOS 预测，输出 SIG/BAK/OVRL 三维分数	语音增强/降噪系统监控
NISQA	非侵入式语音质量评估，支持流式实时输出	实时通信质量监控（RTC）
SCOREQ	2026 最新评估模型，兼顾主观相关性与鲁棒性^[6]	ICASSP 2026 挑战赛官方指标

1.4 推荐评估组合

快速评估

UTMOS（无参考 MOS 预测）+ WER（词错率，衡量可懂度）

适合日常 CI/CD 集成，5 分钟内出结果

严格评估

PESQ/POLQA（有参考）+ UTMOS（无参考）+ 人工 MOS

适合模型发布前的基准测试

生产监控

DNSMOS + NISQA 实时打分，接入告警系统

适合在线服务质量回归检测

§2

歌声生成（SVS）主流模型

商用端到端方案 vs 开源可本地部署方案，2026 年格局全览

2.1 商用方案对比

端到端歌曲生成领域已形成三强格局，各有差异化定位：^[7]

模型	公司	核心特点	声乐质量
Suno v5	Suno	最佳综合体验，一句描述生成完整歌曲（前奏/主歌/副歌/间奏）	表现力强，但偶有"AI 感"
Udio	Udio（前 Spotify AI 团队）	专业制作人首选，音频保真度最高，支持分轨导出	最接近真实人声的 AI 歌声
MiniMax Music 2.5	MiniMax	2026 最逼真 AI 歌声，自然颤音 + 情感动态，支持中文	自然度第一，颤音控制细腻
Mureka	—	歌词优先生成流程，适合词曲人快速验证	中等水平
Google Lyria 3 Pro	Google DeepMind	高保真长曲目，支持分段结构（前奏/副歌/桥段）^[7]	高保真，适合长编曲

2.2 开源方案对比

开源 SVS 生态在 2025-2026 年快速成熟，本地部署门槛大幅降低：^[8]

模型	核心特点	适用场景
ACE-Step 1.5	本地运行，多项指标超越 Suno，使用合规训练数据，Apache 2.0 协议	本地部署首选，商业可用
DiffSinger	浅扩散机制 SVS，支持自训声库，社区活跃^[7]	自定义声库训练
SoulX-Singer	4.2 万小时训练数据，支持中英粤三语，MIDI 条件生成	中文歌声最优开源方案
NNSVS (Sinsy)	10 年历史，从 HMM 到 DNN 持续迭代，文档完善	学术研究、低资源场景
CosyVoice2	阿里通义出品，150ms 流式延迟，MOS 5.53，可加颤音后处理	TTS 转歌声过渡方案
Fish Speech V1.5	高质量零样本 TTS，声音克隆效果佳	零样本声音克隆
IndexTTS-2	时长精确控制 + 情感/音色解耦架构	精细化情感控制

2.3 2026 年格局小结

端到端歌曲生成

1st: Suno v5
2nd: Udio
3rd: MiniMax Music 2.5

纯歌声合成（SVS）

1st: SoulX-Singer（中文）
2nd: DiffSinger
3rd: NNSVS

开源本地部署

1st: ACE-Step 1.5
2nd: DiffSinger
3rd: NNSVS

关键边界：TTS 模型（MiniMax Speech-02-HD / ElevenLabs / OpenAI TTS）无法生成歌声。歌声合成（SVS）和端到端音乐生成（Suno/Udio）是独立赛道，评估指标、训练数据、模型架构三者均不同。^[7]

§3

TTS 音色评估指标与工具平台

从自然度到延迟，六大评估维度 + 六个主流工具平台

3.1 六大评估维度

维度	说明	主要指标
自然度	多像真人说话？韵律、音调是否流畅	MOS / UTMOS
可懂度	听清了吗？每个字能否被正确识别	WER（词错率）/ CER（字错率）
情感表达	有没有情绪？高兴/悲伤/愤怒能否区分	情感分类准确率 / EQ 评分
韵律	节奏对吗？停顿、重音是否符合语言习惯	F0 相关性 / 时长误差
音色相似度	声音克隆时像不像原声？	Speaker Embedding Cosine（WavLM/CAM++）
延迟	多快出声？对实时对话场景至关重要	TTFB（首字节时间）/ TTFA（首音帧时间）

3.2 主要评估工具与平台

🏆

Artificial Analysis Speech Arena

众包盲听 ELO 排名，目前最权威的 TTS 横向对比平台，覆盖 20+ 商用模型，MiniMax Speech-02-HD 当前排名第一。^[1]
🤗

Hugging Face TTS Arena

开源社区驱动的 TTS 对比平台，侧重开源模型，覆盖 Fish Speech、CosyVoice2 等国内外模型。
📊

MAMBA Benchmark

真实生产条件评估（非理想 demo 条件），包含噪声环境、电话通道、长文本等挑战场景，更贴近落地实际。
🎵

SpeechEval / AudioBox

歌曲和音乐生成专用评估框架，支持音调准确性、节拍同步、和声质量等音乐特有维度。
🐍

pesq / speechmetrics Python 库

PESQ 的官方 Python 实现；speechmetrics 集成 PESQ/STOI/SRMR，一行代码完成多维评估，适合批量自动化测试。
🔬

UTMOS（Hugging Face 模型）

sarulab-speech/UTMOS，无需参考音频，直接输出 MOS 预测分数，与人工评分相关系数 >0.95，是 TTS 开发者最常用的自动化评估工具。^[5]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或