PixConvert

文本转音频

输入文本,选择语音合成和音频格式(MP3、WAV、OGG),然后下载真实音频文件——所有操作均在本地浏览器中完成。无需上传,无需注册账号。

0 chars

输入或粘贴上方文本即可生成音频。

速度1.0×

输出格式

第一代语音模型会下载(约25MB),并缓存在本地——后续几代语音模型则会立即生成。

为什么使用 PixConvert 文本转音频

真实的神经语音。真实的音频文件。零上传。

可下载的 WAV 文件

生成可保存到设备中的实际音频文件,而不仅仅是浏览器播放后消失的文件。

神经语音质量

使用 VITS 神经 TTS 模型,可生成听起来自然的语音,远远超越基本的机器人合成。

100% 浏览器内运行

语音模型使用 WebAssembly 在本地运行。您的文本内容绝不会离开您的设备。

无需注册账号

无需注册、无需API密钥、无需订阅。粘贴文本,点击“生成”,即可下载文件。

模型缓存

语音模型只需下载一次并缓存在本地。首次运行后,即可立即生成语音。

多种声音

从一系列具有不同口音和语调的英语自然语音中进行选择。

何时使用文本转音频

任何需要将文本转换成音频文件的地方。

内容创作

无需录音设备即可为视频、播客或演示文稿生成旁白音频。

  • 为幻灯片制作旁白
  • 为视频项目添加配音
  • 快速制作音频内容原型

无障碍

将文字内容转换为音频文件,以便离线收听或分发给他人。

  • 分享文章的音频版本
  • 制作伴听学习材料
  • 为有阅读困难的用户提供支持

语言学习

从任何文本生成发音参考和听力练习文件。

  • 下载短语以供离线复习
  • 聆听地道的发音
  • 创建自定义音频记忆卡

如何将文本转换为音频

1

输入或粘贴要转换的文本。从下拉菜单中选择一种语音——不同的语音提供不同的口音和语调。

2

点击“生成音频”。首次使用时,语音模型(约 25 MB)将下载并缓存到本地。后续运行将使用缓存的模型。

3

生成完成后,使用音频播放器预览结果。点击“下载 WAV”将文件保存到您的设备。

常见问题解答

关于基于浏览器的神经文本转音频转换的一切。

它与文本转语音有何不同?

本网站的文本转语音功能使用浏览器内置的 Web Speech API 进行即时播放——它会通过扬声器播放音频,但无法生成可下载的文件。文本转音频功能则使用通过 WebAssembly 运行的神经 VITS 模型来生成您可以保存的 WAV 文件。

语音模型下载文件有多大?

语音模型大小约为 25 MB。它会在您首次访问时下载并被浏览器缓存。除非您清除浏览器缓存,否则后续访问无需再次下载。

我的短信会被发送到服务器吗?

不。整个TTS流程——包括模型加载、文本处理和音频合成——都是使用WebAssembly在您的浏览器本地运行的。您的文本绝不会上传到任何服务器。

为什么第一代产品需要更长时间?

第一代程序会下载神经语音模型(约 25 MB)并将其缓存到浏览器的本地存储中。之后,由于模型已在本地可用,因此生成速度很快。

有哪些音频格式可供选择?

提供三种格式:WAV(无损压缩,适合编辑)、MP3(压缩格式,文件最小,兼容性最广)和 OGG Vorbis(开放格式,高性价比)。WAV 由语音引擎原生生成;MP3 和 OGG 则使用 FFmpeg WebAssembly 在浏览器中进行转码。