我正在研究作者姓名消歧問題。我想做一些實驗。我想分類引文記錄。我需要培訓數據和測試數據,其中每個出版物記錄的真實作者都可以使用。有許多書目數據庫,如DBLP,Medline和Pubmed等。我對測試階段感到困惑。將DBLP分爲培訓和測試是一種很好的做法嗎?手動添加DBLP引用記錄?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?有沒有關於培訓和測試數據庫的建議。 注:在文獻中我注意到,在一些論文中,他們使用Pubmed進行培訓,DBLP進行測試,儘管第一篇文章是醫學出版物,第二篇是計算機。作者姓名消歧數據
Q
作者姓名消歧數據
0
A
回答
0
下面是我對您的問題:
我感到困惑的測試階段。將DBLP分爲培訓和測試是一種很好的做法嗎?
使用的做法是拆分數據進行培訓和測試。然而,確保每個測試樣本都存在訓練樣本是一個好主意。
手動添加了DBLP引用記錄嗎?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?
根據本文,DBLP引文記錄是手動添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
是否有任何關於培訓和測試數據庫的建議。
ANDDataset1在一些工作已經被用於此類任務 https://sites.google.com/site/tinhuynhuit/dataset
您也可以嘗試KDD杯2013 - 作者歧挑戰 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data
相關問題
- 1. Symfony呈現作者姓名
- 2. 人名消歧
- 3. Randomise Latex中的作者姓名
- 4. Natbib不顯示完整作者姓名
- 5. laravel 5作者姓名顯示書籍
- 6. 如何讓nntplib作者姓名可讀?
- 7. git log作者姓名來自htpasswd
- 8. WorsPress orederby特定作者姓名
- 9. 在TortoiseSVN中更改作者姓名
- 10. 在評論中顯示作者姓名而非作者ID
- 11. 獲取所有者姓名
- 12. 消歧
- 13. WordPress的 - get_comment_author()返回 「匿名」 爲作者姓名
- 14. 顯示作者姓名,書名爲誰寫的多本書籍
- 15. Dcmj2pnm tojpeg患者姓名缺失
- 16. 獲取參與者的姓名MSConversation
- 17. Drupal Views作者姓名的公開過濾器
- 18. 如何在我的PGM中加載圖片和作者姓名?
- 19. 從Guardian開放平臺獲取作者姓名
- 20. 如何在eclipse starteam中顯示上次簽入作者姓名?
- 21. 如何在此處分組作者姓名?
- 22. 在提交中刪除基於作者姓名的文件
- 23. 如何爲每個帖子選擇作者的姓名?
- 24. 使用StyleCop在文檔標題中添加作者姓名
- 25. 在最近的博文中得到作者姓名
- 26. 的git-HTTP-後端 - 覆蓋提交作者姓名
- 27. 在C#中自動添加作者姓名
- 28. 培訓NER分類器以識別作者姓名
- 29. Android包是否存儲開發人員/公司/作者姓名?
- 30. 絕對需要作者姓名的代碼嗎?
「我可以保證,每一個引文記錄被分配到真正的作者在DBLP?「請注意,雖然DBLP是手動策劃的,但這絕不能保證DBLP沒有錯誤。元數據錯誤的來源是多方面的,甚至通常手動研究也無法揭示「真相」。由於其獨特的數據管理方法,DBLP的質量可能比其他聚合數據源的質量更高且不易出錯。但是有了一些經驗,你可以很容易地找到很多例子,即使DBLP錯了。 – MRA