正如所建議的評論者之一,我試過的JabRef第一:
的JabRef -n -f 「citeseer:標題:(從教訓)作者:(布魯爾)」
然而jabref似乎沒有意識到查詢字符串需要包含冒號並引發錯誤。
對於搜索結果,我結束了刮鏁結果與Python的BeautifulSoup:
url = "http://citeseerx.ist.psu.edu/search?q="
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc"
url += q.format (author_last, title.replace (" ", "+"))
soup = BeautifulSoup (urllib2.urlopen (url).read())
result = soup.html.body ("div", id = "result_list") [0].div
title = result.h3.a.string.strip()
authors = result ("span", "authors") [0].string
authors = authors [len ("by "):].strip()
date = result ("span", "pubyear") [0].string.strip (", ")
有可能得到結果的文件ID(在誤導爲「DOI = ...」部分在摘要鏈接URL中),然後將其傳遞給CiteSeerX OAI引擎以獲取都柏林核心XML(例如http://citeseerx.ist.psu.edu/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:CiteSeerX.psu:10.1.1.42.2177);然而,XML最終包含多個dc:date元素,這使得它比scrape輸出更有用。
太糟糕了CiteSeerX讓人們不顧一切的開放式檔案/開放式訪問修辭而求助於刮蹭。
JabRef支持CiteSeerX。看看他們的GIT,看看他們是如何做到的:http://jabref.sourceforge.net/download.php可能JabRef是你真正的問題的答案,即參考管理? – 2012-12-29 21:24:41
我會建議抓取他們的網頁並編寫自己的XQuery引擎,以便能夠可靠地做到這一點。 – BeniBela
感謝JabRef,@ marek-cruz。是的,我看到他們也刮(CiteSeerXFetcher.java)。我很驚訝CiteSeerX沒有API(並且他們沒有清楚地說明他們網站上的情況,不管是哪種方式)。 – dan3