テキスト音声変換
テキストを入力し、ニューラル音声とフォーマット(MP3、WAV、OGG)を選択したら、実際の音声ファイルをダウンロードできます。すべてブラウザ上でローカルに処理されます。アップロードもアカウント作成も不要です。
音声を生成するには、上記のテキストを入力または貼り付けてください。
出力形式
第1世代では音声モデル(約25MB)がダウンロードされます。これはローカルにキャッシュされるため、以降の世代は瞬時に処理されます。
PixConvertのテキスト音声変換機能を使う理由
本物のニューラル音声。本物の音声ファイル。アップロード不要。
ダウンロード可能なWAVファイル
ブラウザで再生されて消えてしまうようなものではなく、デバイスに保存できる実際の音声ファイルを生成します。
ニューラル音声品質
VITSニューラルTTSモデルを使用し、基本的なロボット合成をはるかに超えた、自然な音声を生成します。
100%ブラウザ内
音声モデルはWebAssemblyを使用してローカルで実行されます。テキストはデバイスから外部に送信されることはありません。
アカウント不要
登録不要、APIキー不要、サブスクリプション不要。テキストを貼り付けて「生成」をクリックするだけで、ファイルをダウンロードできます。
モデルキャッシング
音声モデルは一度ダウンロードされ、ローカルにキャッシュされます。初回実行後は、音声生成は瞬時に行われます。
複数の声
さまざまなアクセントやトーンを持つ、英語のニューラル音声の中からお選びください。
テキスト音声変換はいつ使うべきか
テキストから実際の音声ファイルが必要なあらゆる場面で。
コンテンツ作成
録音機器を使わずに、動画、ポッドキャスト、プレゼンテーション用のナレーション音声を生成できます。
- スライドデッキ用のナレーションを作成する
- ビデオプロジェクトにナレーションを追加する
- オーディオコンテンツを素早くプロトタイプ化
アクセシビリティ
文章コンテンツを音声ファイルに変換して、オフラインで聴いたり、他の人に配布したりできます。
- 記事の音声版を共有する
- 一緒に聞くことができる学習教材を作成する
- 読書に困難を抱えるユーザーをサポートする
言語学習
あらゆるテキストから発音参考資料とリスニング練習ファイルを生成します。
- オフラインで確認するためにフレーズをダウンロードしてください
- ネイティブのような発音を聞く
- カスタム音声フラッシュカードを作成する
テキストを音声に変換する方法
変換たいテキストを入力または貼り付けてください。ドロップダウンメニューからニューラル音声を選択してください。音声によってアクセントやトーンが異なります。
「音声生成」をクリックしてください。初回使用時には、音声モデル(約25MB)がダウンロードされ、ローカルにキャッシュされます。以降の実行では、キャッシュされたモデルが使用されます。
生成が完了したら、オーディオプレーヤーで結果をプレビューしてください。「WAVをダウンロード」をクリックすると、ファイルがデバイスに保存されます。
その他のツールを見る
このツールと併用すると非常に便利な他の無料ツールも見つけてみましょう。
テキスト読み上げ
ブラウザに内蔵されている音声機能を使って、テキストを音声に変換します。
音声認識
マイクを使って音声をリアルタイムでテキストに変換します
オーディオコンバーター
音声ファイルを任意の形式に変換する
単語数カウンター
単語数、文字数、文数、読了時間をカウントする
ケースコンバーター
テキストを大文字、小文字、タイトルケース、キャメルケースなどに変換します。
Lorem Ipsum Generator
段落または単語単位でプレースホルダーテキストを生成します。
よくある質問
ブラウザベースのニューラルテキスト音声変換に関するあらゆる情報。
これはテキスト読み上げと何が違うのでしょうか?
このサイトのテキスト読み上げ機能は、ブラウザに組み込まれているWeb Speech APIを使用して即座に再生します。スピーカーから音声が再生されますが、ダウンロード可能なファイルを作成することはできません。テキスト音声変換機能は、WebAssemblyを介して実行されるニューラルVITSモデルを使用して、保存可能な実際のWAVファイルを生成します。
音声モデルのダウンロードサイズはどれくらいですか?
音声モデルのサイズは約25MBです。初回アクセス時にダウンロードされ、ブラウザにキャッシュされます。ブラウザのストレージをクリアしない限り、以降のアクセスでは再度ダウンロードする必要はありません。
私のテキストメッセージはサーバーに送信されますか?
いいえ。TTS(テキスト読み上げ)のパイプライン全体(モデルの読み込み、テキスト処理、音声合成)は、WebAssemblyを使用してブラウザ上でローカルに実行されます。テキストがサーバーにアップロードされることは一切ありません。
なぜ第一世代の世代は時間がかかるのか?
最初の生成では、ニューラル音声モデル(約25MB)をダウンロードし、ブラウザのローカルストレージにキャッシュします。その後は、モデルが既にローカルに用意されているため、生成は高速になります。
利用可能な音声フォーマットは何ですか?
利用可能なフォーマットは、WAV(非圧縮、ロスレス - 編集に最適)、MP3(圧縮、最小ファイルサイズ、最も幅広い互換性)、OGG Vorbis(オープンフォーマット、優れた音質対サイズ比)の3種類です。WAVは音声エンジンによってネイティブに生成されます。MP3とOGGは、FFmpeg WebAssemblyを使用してブラウザ内でトランスコードされます。