🚀HierSpeech生成模型支持

HierSpeech 是由韩国高丽大学团队提出的端到端文本转语音（TTS）系统，从文本直接生成高质量波形，通过提升语音自然度与发音准确性，在 VCTK 数据集上将音素错误率从 9.16% 降至 5.78%，MOS 得分提升约 0.3。

我们平台现已全面支持 HierSpeechs 生成模型，并提供高效、精准的检测服务，帮助用户及时识别生成内容中的伪造或不真实信息。

INFO

📢 最新动态：2025年Q2新增对 HierSpeech 音频生成模型 的实时检测支持

🌟 HierSpeech生成模型介绍

HierSpeech的音频生成模型可以生成逼真的音频内容：

**HierSpeech **
HierSpeech 首先利用自监督语音表示提取语言层面信息，再通过分层 VAE 将文本映射到多个潜在变量并逐层生成声学特征，最终生成波形。这种“自上而下”建模策略有效减少误读与语音过平滑问题，弥合文本与语音信息之间的鸿沟。

核心检测指标亮点

我们的检测引擎专为实时识别HierSpeech的音频模型生成内容中的伪造痕迹而设计，具备：

模型名称	版本支持	检测维度	检测准确率	响应时延
HierSpeech	-	噪声分析/语音风格一致性	99.6%	50ms / frame

检测能力优势

我们的 Anti-Fake AI 工具特别适用于实时检测HierSpeech模型生成的内容。以下是一些典型的检测效果：

以下视频示例演示了如何通过我们的工具，实时检测并标记由HierSpeech生成模型生成的音频的片段，帮助用户高效识别音频中的伪造痕迹。

音频伪造检测效果
图注：左侧为原音频帧，右侧为检测后高亮显示的可疑区域。

若您希望申请试用、获取技术资料或业务合作，请联系：