2017-01-16 147 views
3

我正在嘗試使用tensorflow-wavenet程序進行文本轉語音。如何使用tensorflow-wavenet

這些步驟如下:

  1. 下載Tensorflow
  2. 下載librosa
  3. 安裝要求pip install -r requirements.txt
  4. 下載語料並投入命名爲 「文集」
  5. 列車機python train.py --data_dir=corpus
  6. 目錄
  7. 生成音頻python generate.py --wav_out_path=generated.wav --samples 16000 model.ckpt-1000

這樣做之後,我該如何生成文本文件的語音讀出?

+0

如果tensorflow-wavenet除了產生亂碼之外無法做任何事情,是否有功能性程序可以將機器學習和語音生成結合起來創建真實的語音? – Lumo5

+1

當然Deepmind不會透露所有的魔法,所以他們的論文缺乏描述他們如何做文本到語音生成所必需的局部調節。你還需要一種訓練數據,這種訓練數據的組織方式可以用來進行局部調節 - >將音頻與說出的文字結合起來......因此,你必須自己動手回購並自己做,或者等到其他天才會做它。 –

回答

1

通過DeepMind最近的一篇文章描述了一個方法來使用WaveNet,我沒有試圖實現,但來自文本去演講,至少狀態,他們使用的方法:他們先訓練一個網絡預測來自文本的頻譜圖,然後訓練WaveNet使用相同的方法光譜圖的rt作爲生成語音的附加條件輸入。這是一個很好的想法,尤其是因爲您可以訓練WaveNet部分的一些龐大的純語音數據庫,您可以從中提取譜圖,然後使用其中包含文本的不同數據集訓練文本到譜圖部分。

https://google.github.io/tacotron/publications/tacotron2/index.html有論文和一些示例輸出。

在譜圖預測部分似乎有一堆不直觀的工程(毫無疑問,因爲文本到時間學習的性質),但至少在本文中有一些細節。該數據集是專有的,所以我不知道使用其他數據集獲得任何結果將會是多麼困難。