2012-07-09 114 views
1

我知道,谷歌語音搜索通過發送原始音頻(數字化的課程)到谷歌的服務器,那麼谷歌返回文本形式的結果。谷歌語音搜索的延遲和時間計算

結果本身相對較小(除非它是一個非常長的句子......),所以我相信通過Internet發送它所花費的時間可以忽略不計(折扣HTTP開銷,服務器負載等)。

我想知道發送到Google語音服務器的實際「模擬」原始音頻的大小(KB),以便獲得該組件對Internet連接速度(上行鏈路)的依賴關係。當然,原始音頻數據包的大小很大程度上取決於所說的短語(一個單詞?整個句子?一個很長的句子?),所以我正在尋找一些關於這個(統計,典型,等等。)。

我也知道,那些原始的音頻壓縮包。有關壓縮方法的任何信息? (這不是MP3,是這樣嗎?)

是Android設備和PC之間的不同壓縮(即基於Chrome)?

雖然這似乎不是一個直接的編程問題,在我的情況下,它是很直接關係到編程,因爲答案可能影響算法(S)構建基於谷歌語音搜索應用程序時使用。

+0

看看http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/。這篇文章展示了Google Chrome的語音識別功能。大多數人所做的假設是Android使用相同的服務。 – 2012-07-09 17:31:32

回答

2

我沒有測量有多少數據被實際發送到谷歌服務器上,但讓我們做一個合理的假設,即語音搜索

  • 記錄單聲道
  • 記錄與16kHz的採樣率
  • 與記錄16位分辨率
  • 適用無損壓縮實現2個更小的​​尺寸

在此CA se 1秒的錄音消耗(1 * 16,000 * 2)/2 = 16,000 bytes