2016-06-10 79 views
0

我想從Freebase dump中提取所有公司。但是,轉儲中似乎缺少多個實例。Freebase:在轉儲中丟失的實例

例如Volkswagen(/m/07ywl)似乎不包括在內。我搜索了MID使用下面的正則表達式,但找不到任何結果:

zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf 

,因爲它是在相應的Wikidata page說,是大衆汽車的頂級結果使用知識爲它尋找時,MID應該是有效的圖形API:

https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=<API-KEY>&limit=5&indent=True 

回答

0

即實體存在於freebase-rdf-2015-04-19-00-00.gz,所以我會非常驚訝,如果它沒有在決賽中轉儲從幾個月後存在(2015年8月9日),因爲數據庫是寫除了幾個Google管理員之外,所有人都會被鎖定。

我的第一個猜測是你有一個截斷或損壞的下載。下載後是否檢查了長度和MD5校驗和?

+0

對不起後期跟進。你能告訴我你是如何搜索實體的?我在'freebase-rdf-2015-04-19-00-00.gz'轉儲上嘗試了'zgrep'07ywl'',並沒有檢索到任何結果。 – fwind

+0

'$時間zgrep '07ywl' 的遊離鹼,RDF-2015-04-19-00-00.gz> VW-07ywl.txt 真正\t 86m51.942s 用戶\t 84m33.558s SYS \t 0m39.977s $廁所-l vw-0 * 1344 vw-07ywl.txt' 下載後是否檢查了長度和校驗和? –

+0

他們不發佈校驗和。然而,檔案的大小看起來不錯,我測試了使用'gunzip -t'壓縮不會損壞。 – fwind