文本转音频
输入文本,选择语音合成和音频格式(MP3、WAV、OGG),然后下载真实音频文件——所有操作均在本地浏览器中完成。无需上传,无需注册账号。
输入或粘贴上方文本即可生成音频。
输出格式
第一代语音模型会下载(约25MB),并缓存在本地——后续几代语音模型则会立即生成。
为什么使用 PixConvert 文本转音频
真实的神经语音。真实的音频文件。零上传。
可下载的 WAV 文件
生成可保存到设备中的实际音频文件,而不仅仅是浏览器播放后消失的文件。
神经语音质量
使用 VITS 神经 TTS 模型,可生成听起来自然的语音,远远超越基本的机器人合成。
100% 浏览器内运行
语音模型使用 WebAssembly 在本地运行。您的文本内容绝不会离开您的设备。
无需注册账号
无需注册、无需API密钥、无需订阅。粘贴文本,点击“生成”,即可下载文件。
模型缓存
语音模型只需下载一次并缓存在本地。首次运行后,即可立即生成语音。
多种声音
从一系列具有不同口音和语调的英语自然语音中进行选择。
何时使用文本转音频
任何需要将文本转换成音频文件的地方。
内容创作
无需录音设备即可为视频、播客或演示文稿生成旁白音频。
- 为幻灯片制作旁白
- 为视频项目添加配音
- 快速制作音频内容原型
无障碍
将文字内容转换为音频文件,以便离线收听或分发给他人。
- 分享文章的音频版本
- 制作伴听学习材料
- 为有阅读困难的用户提供支持
语言学习
从任何文本生成发音参考和听力练习文件。
- 下载短语以供离线复习
- 聆听地道的发音
- 创建自定义音频记忆卡
如何将文本转换为音频
输入或粘贴要转换的文本。从下拉菜单中选择一种语音——不同的语音提供不同的口音和语调。
点击“生成音频”。首次使用时,语音模型(约 25 MB)将下载并缓存到本地。后续运行将使用缓存的模型。
生成完成后,使用音频播放器预览结果。点击“下载 WAV”将文件保存到您的设备。
常见问题解答
关于基于浏览器的神经文本转音频转换的一切。
它与文本转语音有何不同?
本网站的文本转语音功能使用浏览器内置的 Web Speech API 进行即时播放——它会通过扬声器播放音频,但无法生成可下载的文件。文本转音频功能则使用通过 WebAssembly 运行的神经 VITS 模型来生成您可以保存的 WAV 文件。
语音模型下载文件有多大?
语音模型大小约为 25 MB。它会在您首次访问时下载并被浏览器缓存。除非您清除浏览器缓存,否则后续访问无需再次下载。
我的短信会被发送到服务器吗?
不。整个TTS流程——包括模型加载、文本处理和音频合成——都是使用WebAssembly在您的浏览器本地运行的。您的文本绝不会上传到任何服务器。
为什么第一代产品需要更长时间?
第一代程序会下载神经语音模型(约 25 MB)并将其缓存到浏览器的本地存储中。之后,由于模型已在本地可用,因此生成速度很快。
有哪些音频格式可供选择?
提供三种格式:WAV(无损压缩,适合编辑)、MP3(压缩格式,文件最小,兼容性最广)和 OGG Vorbis(开放格式,高性价比)。WAV 由语音引擎原生生成;MP3 和 OGG 则使用 FFmpeg WebAssembly 在浏览器中进行转码。