已經完成了哪些工作來確定特定的字符串是否與地理位置有關?例如:識別文本中的地理位置
'troy, ny'
'austin, texas'
'hotels in las vegas, nv'
我想我所期待的是一種統計方法,它提供了前兩個位置的信心程度。最後一個可能需要一個啓發式,它抓住「%s,%s」然後使用相同的技術。我特別在尋找不太依賴「in」命題的方法,因爲它不是完全明確的或始終可用的位置指示器。
任何人都可以指向我的方法,論文或現有的工具嗎?謝謝!
已經完成了哪些工作來確定特定的字符串是否與地理位置有關?例如:識別文本中的地理位置
'troy, ny'
'austin, texas'
'hotels in las vegas, nv'
我想我所期待的是一種統計方法,它提供了前兩個位置的信心程度。最後一個可能需要一個啓發式,它抓住「%s,%s」然後使用相同的技術。我特別在尋找不太依賴「in」命題的方法,因爲它不是完全明確的或始終可用的位置指示器。
任何人都可以指向我的方法,論文或現有的工具嗎?謝謝!
您所描述的問題通常被稱爲地理查詢解析或更普遍的地理信息檢索。
在CLEF 2007(http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm)上做這件事最近有一項任務。勝利的團隊使用基於規則的語法,這與您可能不想要的類似。 www2009的另一篇論文談到GeoParser:http://www2009.eprints.org/239/。
也有2007 CIKM地理信息檢索的一些文件:http://www.geo.unizh.ch/~rsp/gir07/accepted.html
我不知道任何開源軟件,做這一點,但它可能被捆綁到像狐猴的搜索引擎。
的鏈接,以幫助:geonames.org search:
返回找到的 搜索關鍵詞作爲XML或JSON文件的名稱
有由Everyblock.com採取了非常有趣的方法,重點是位置如何用英語表達 - 他們基本上是用一些複雜和廣泛的正則表達式是現在開源。他們的應用程序旨在掃描新聞文章,評論和各種公共數據源,並將它們與特定位置相關聯,並且運行良好。 「20號東北角大樓和舊金山瓦倫西亞大街的建築物中的火災」等表達式的地理編碼非常準確。你可以研究來源here。您可能需要的特定部分是ebpub/ebpub/geocoder/base.py
,位於ebpub
下載中,以及它周圍的所有內容,例如從SmartGeocoder類開始並向後工作。
這地圖可以找到個別字符串到地方,但是對於在任意文本中查找地點沒有用處。 – jpatokal 2012-11-13 03:47:46