2017-08-25 29 views
2

我看到paper提供了Sense2Vec背後的想法,但是第一個創建的標準spaCy模型是怎麼樣的?當我從the selection of models下載類似標準「en_core_web_md」模型的東西時,它是如何創建的?有沒有我可以閱讀的文章或spaCy博客文章?SpaCy實際執行哪些NN模型?什麼決定了他們的記憶體大小?

獎金的問題:

如何在即將到來的spaCy 2.0新車型在尺寸要小得多?

version 2 Release summary

此版本擁有全新的深度學習動力模型spaCy的惡搞,解析器和實體識別。新模型比直到現在爲spaCy提供動力的線性模型要小20倍:從300 MB到僅15 MB。

在這個方向上唯一真正的參考是here發佈摘要。 所有型號內存的總結可以找到here

是否提供了模型權重,並且每個調用都獲得相關屬性實際上是在運行時計算得出?這將解釋this page

回答

2

基準測試中顯示的較慢吞吐量。如果您查看模型github repo https://github.com/explosion/spacy-models/releases中的版本,則模型的每個部分都有詳細信息,例如,在惡搞或解析器,說明哪些數據是被訓練上,什麼結果模型的精度是:

分析器:OntoNotes 5,91.5%精度

標註器:OntoNotes 5,96.9%精度

NER:OntoNotes 5,84.7%精度

字矢量:通用抓取

有關培訓模型所需的代碼的更多詳細信息,請訪問:http://spacy.io/docs/usage/training。上面鏈接的版本也附有源代碼,但我沒有檢查過哪些代碼。


編輯:

通過discussion following the announcement of v2.0看完後,我碰到,說明如何在新的NN模型內部工作的問題。

你可以在這裏找到:https://github.com/explosion/spaCy/issues/1057

+0

很好,謝謝 - 您的編輯用品大部分信息我一直在尋找! –

相關問題