PixConvert

Texto a audio

Escribe tu texto, elige una voz neuronal y el formato (MP3, WAV, OGG), y descarga un archivo de audio real; todo se procesa localmente en tu navegador. Sin subidas de archivos. Sin cuenta.

0 chars

Escribe o pega el texto de arriba para generar audio.

Velocidad1.0×

Formato de salida

La primera generación descarga el modelo de voz (~25 MB). Se almacena en caché localmente; las generaciones posteriores son instantáneas.

¿Por qué usar PixConvert Text to Audio?

Voces neuronales reales. Archivos de audio reales. Sin necesidad de subir archivos.

Archivos WAV descargables

Genera un archivo de audio real que puedes guardar en tu dispositivo, no solo una reproducción en el navegador que desaparece.

Calidad de voz neuronal

Utiliza modelos neuronales de síntesis de voz VITS que producen un habla con sonido natural, muy superior a la síntesis robótica básica.

100% en el navegador

El modelo de voz se ejecuta localmente mediante WebAssembly. Tu texto nunca sale de tu dispositivo.

No se necesita cuenta

Sin registro, sin clave API, sin suscripción. Pega el texto, haz clic en Generar y descarga el archivo.

Almacenamiento en caché de modelos

El modelo de voz se descarga una sola vez y se almacena en caché localmente. Tras la primera ejecución, la generación es instantánea.

Múltiples voces

Elige entre una selección de voces neuronales en inglés con diferentes acentos y tonos.

Cuándo usar la conversión de texto a audio

En cualquier lugar donde necesites un archivo de audio real a partir de un texto.

Creación de contenido

Genera audio de voz en off para vídeos, podcasts o presentaciones sin necesidad de equipos de grabación.

  • Crear narraciones para presentaciones de diapositivas
  • Agregar locuciones a proyectos de video
  • Prototipar contenido de audio rápidamente

Accesibilidad

Convierte contenido escrito en archivos de audio para escucharlos sin conexión o distribuirlos a otras personas.

  • Compartir versiones en audio de los artículos
  • Crea materiales de estudio para escuchar en voz alta.
  • Brindar apoyo a los usuarios con dificultades de lectura.

Aprendizaje de idiomas

Genera referencias de pronunciación y archivos de práctica auditiva a partir de cualquier texto.

  • Descarga frases para revisarlas sin conexión.
  • Escucha una pronunciación que suena como la de un hablante nativo.
  • Crea tarjetas de audio personalizadas

Cómo convertir texto a audio

1

Escribe o pega el texto que deseas convertir. Elige una voz neuronal en el menú desplegable; las diferentes voces ofrecen distintos acentos y tonos.

2

Haz clic en Generar audio. La primera vez que lo uses, el modelo de voz (~25 MB) se descargará y almacenará en caché localmente. En las ejecuciones posteriores, se utilizará el modelo almacenado en caché.

3

Una vez finalizada la generación, utilice el reproductor de audio para previsualizar el resultado. Haga clic en Descargar WAV para guardar el archivo en su dispositivo.

Preguntas frecuentes

Todo lo relacionado con la conversión neuronal de texto a audio basada en el navegador.

¿Qué diferencia hay entre esto y la conversión de texto a voz?

La función de texto a voz de este sitio utiliza la API de voz web integrada de su navegador para la reproducción instantánea: reproduce el audio a través de sus altavoces, pero no genera un archivo descargable. La función de texto a audio utiliza un modelo neuronal VITS que se ejecuta mediante WebAssembly para generar un archivo WAV real que puede guardar.

¿Qué tamaño tiene la descarga del modelo de voz?

El modelo de voz ocupa aproximadamente 25 MB. Se descarga la primera vez que lo uses y tu navegador lo almacena en caché. No tendrás que volver a descargarlo en visitas posteriores, a menos que borres el almacenamiento de tu navegador.

¿Mi texto se envía a un servidor?

No. Todo el proceso de síntesis de voz (carga del modelo, procesamiento de texto y síntesis de audio) se ejecuta localmente en tu navegador mediante WebAssembly. Tu texto nunca se sube a ningún servidor.

¿Por qué tarda más la primera generación?

La primera generación descarga el modelo de voz neuronal (~25 MB) y lo almacena en la memoria caché del navegador. Posteriormente, la generación es rápida porque el modelo ya está disponible localmente.

¿Qué formatos de audio están disponibles?

Se ofrecen tres formatos: WAV (sin comprimir, sin pérdida de calidad, ideal para la edición), MP3 (comprimido, archivo más pequeño, mayor compatibilidad) y OGG Vorbis (formato abierto, buena relación calidad-tamaño). El motor de voz genera el formato WAV de forma nativa; los formatos MP3 y OGG se transcodifican en el navegador mediante FFmpeg WebAssembly.