如何減少對數據存儲的請求數

根據AppStats，當運行200個文檔和1個DocUser時，腳本大約需要5000ms。總結在於，對於每個需要6-51ms的lastEditedBy（datastore_v3.Get）的每個鎖定，都存在對數據存儲的請求。如何減少對數據存儲的請求數

我想要做的是使某些東西，使顯示許多實體與幾個屬性，其中一些是從其他實體派生。永遠不會有大量的實體（< 5000），並且由於這更像是一個管理界面，所以永遠不會有很多同時用戶。

我試圖通過緩存DocUser實體來進行優化，但是我無法從上面的查詢中獲取DocUser鍵而沒有向數據存儲區發出新的請求。

1）這是否有意義 - 我正在經歷正常的延遲？

2）有沒有辦法使這項工作沒有額外的請求到數據存儲？

models.py

class Document(db.Expando): 
    title = db.StringProperty() 
    lastEditedBy = db.ReferenceProperty(DocUser, collection_name = 'documentLastEditedBy') 
... 

class DocUser(db.Model): 
    user = db.UserProperty() 
    name = db.StringProperty() 
    hasWriteAccess= db.BooleanProperty(default = False) 
    isAdmin = db.BooleanProperty(default = False) 
    accessGroups = db.ListProperty(db.Key) 
...

main.py

$out = '<table>' 
documents = Document.all() 
for i,d in enumerate(documents):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name) 
$out = '</table>'

來源

2012-04-28 Arne S

爲什麼你在文檔上循環，然後每次在循環中讀取所有文檔？你的main.py有問題。 – mjibson 2012-04-29 00:40:55

對不起，我的示例代碼中有錯誤。現在修復。 – 2012-04-29 08:27:54

其中一種方法是預取所有文件以創建查找字典，其中的鍵爲docuser.key（），值爲docuser.name。

docusers = Docuser.all().fetch(1000) 
    docuser_dict = dict([(i.key(), i.name) for i in docusers])

然後在你的代碼，你可以通過使用get_value_for_datastore得到docuser.key（）不從數據庫中拉對象獲取從docuser_dict名稱。

documents = Document.all().fetch(1000) 
    for i,d in enumerate(documents): 
     docuser_key = Document.lastEditedBy.get_value_for_datastore(d) 
     last_editedby_name = docuser_dict.get(docuser_key) 
     out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, last_editedby_name)

來源

2012-04-29 04:40:43 johnP

謝謝你，這個作品很棒。 – 2012-04-29 22:20:31

這是一個典型的反模式。您可以通過以下方法解決此問題：

預取所有引用。詳情請參閱Nick's blog entry。
使用ndb。該模塊沒有ReferenceProperty。它有各種好東西，如2 automatic caching layers，asynchronous mechanism called tasklets等。更多詳情，請致電see the ndb documentation。

來源

2012-04-28 23:27:54

感謝您的反饋。我現在明白，GAE數據庫不像我以前想的那樣先進和容易。我應該使用NBC來代替，但這會使得有必要重寫整個應用程序。我無法讓Nick的代碼正常工作，我發現他的博客上有一些評論，說明某些內容不再適用。你最近測試過了嗎？ – 2012-04-29 22:13:57

如果要剪切的實例時，你可以打破單一的同步查詢到多個異步查詢，而你做其他工作，可以預取結果。而不是使用Document.all（）。fetch（），使用Document.all（）。run（）。您可能不得不阻止您迭代的第一個查詢，但在完成時，所有其他查詢都將完成加載結果。如果您想獲得200個實體，請嘗試一次使用5個查詢。

q1 = Document.all().run(prefetch_size=20, batch_size=20, limit=20, offset=0) 
q2 = Document.all().run(prefetch_size=45, batch_size=45, limit=45, offset=20) 
q3 = Document.all().run(prefetch_size=45, batch_size=45, limit=45, offset=65) 
q4 = Document.all().run(prefetch_size=45, batch_size=45, limit=45, offset=110) 
q5 = Document.all().run(prefetch_size=45, batch_size=45, limit=45, offset=155) 
for i,d in enumerate(q1):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name) 
for i,d in enumerate(q2):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name) 
for i,d in enumerate(q3):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name) 
for i,d in enumerate(q4):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name) 
for i,d in enumerate(q5):   
    out += '<tr><td>%s</td><td>%s</td></tr>' % (d.title, d.lastEditedBy.name)

我爲我的cr py蟒蛇道歉;但這個想法很簡單。設置您的prefetch_size = batch_size =限制，並立即啓動所有查詢。 q1的尺寸較小，因爲我們會先阻擋它，而阻塞是浪費時間。當q1完成時，q2將完成或幾乎完成，並且q3-5將支付零延遲。

有關詳細信息，請參閱https://developers.google.com/appengine/docs/python/datastore/async#Async_Queries。

來源

2012-04-29 20:07:54 Ajax

謝謝。這很有趣，但我希望我不需要做這些黑客來讓我的應用程序合理地運行。 – 2012-04-30 10:40:41

這不是真正的黑客。這就是你如何解開appengine的力量。它可以很容易地並行執行5-10個查詢，並且可以用單個方法def multiquery（...）將其包裝。我在appengine java中一直這樣做，並將我們的成本從每天70美元降至每天25美元。使用異步的一切。所有的appengine服務都可以異步使用，這就是您將實例小時數降至最低的方法。 – Ajax 2012-04-30 14:28:14

另外，如果您的DocUser引用屬性在同一個實體上導致了昂貴的重複獲取（），則應該考慮在迭代時緩存每個查找屬性的鍵，然後只解析唯一鍵，以便僅獲取一個一旦。我會建議這樣做異步以及;如果可能的話。 – Ajax 2012-04-30 14:47:55

如何減少對數據存儲的請求數

回答

相關問題