🚀 VoiceBox 生成模型支持

VoiceBox 是由 Meta 开发的一款尖端语音生成模型，该模型不仅支持多种语言的语音合成，还具备去除瞬态噪声、编辑内容、跨语言风格转换和多样化语音采样等功能。VoiceBox 的生成速度比现有的自回归模型快20倍，能够通过上下文学习执行未明确训练的任务。

我们平台现已全面支持 VoiceBox 的生成模型，并提供高效、精准的检测服务，帮助用户及时识别生成内容中的伪造或不真实信息。

INFO

📢 最新动态：2025年Q2新增对 VoiceBox 音频生成模型 的实时检测支持

🌟 生成模型介绍

VoiceBox 的音频生成模型可以生成逼真的音频内容：

VoiceBox
该模型基于非自回归流匹配（Flow Matching）模型构建，能够通过大规模数据学习文本引导的语音填充任务。核心优势在于其强大的多语言合成能力和快速生成速度。它支持六种语言（英语、法语、德语、西班牙语、波兰语和葡萄牙语），能够根据上下文学习并执行多种语音相关任务。该模型通过大规模数据训练，能够生成具有不同风格和情感的语音样本，同时去除录音中的瞬态噪声，如门铃声或狗叫声。VoiceBox 还具备跨语言风格转换能力，可以使用一种语言的语音提示生成另一种语言的语音。

核心检测指标亮点

我们的检测引擎专为实时识别VoiceBox的音频模型生成内容中的伪造痕迹而设计，具备：

模型名称	版本支持	检测维度	检测准确率	响应时延
VoiceBox	-	噪声分析/语音风格一致性	99.6%	50ms / frame

检测能力优势

我们的 Anti-Fake AI 工具特别适用于实时检测VoiceBox 模型生成的内容。以下是一些典型的检测效果：

以下视频示例演示了如何通过我们的工具，实时检测并标记由VoiceBox生成的音频的片段，帮助用户高效识别音频中的伪造痕迹。

音频伪造检测效果
图注：左侧为原音频帧，右侧为检测后高亮显示的可疑区域。

若您希望申请试用、获取技术资料或业务合作，请联系：