2009-07-29 168 views
8

已經完成了哪些工作來確定特定的字符串是否與地理位置有關?例如:識別文本中的地理位置

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

我想我所期待的是一種統計方法,它提供了前兩個位置的信心程度。最後一個可能需要一個啓發式,它抓住「%s,%s」然後使用相同的技術。我特別在尋找不太依賴「in」命題的方法,因爲它不是完全明確的或始終可用的位置指示器。

任何人都可以指向我的方法,論文或現有的工具嗎?謝謝!

回答

7

您所描述的問題通常被稱爲地理查詢解析或更普遍的地理信息檢索。

在CLEF 2007(http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm)上做這件事最近有一項任務。勝利的團隊使用基於規則的語法,這與您可能不想要的類似。 www2009的另一篇論文談到GeoParser:http://www2009.eprints.org/239/

也有2007 CIKM地理信息檢索的一些文件:http://www.geo.unizh.ch/~rsp/gir07/accepted.html

我不知道任何開源軟件,做這一點,但它可能被捆綁到像狐猴的搜索引擎。

4

有由Everyblock.com採取了非常有趣的方法,重點是位置如何用英語表達 - 他們基本上是用一些複雜和廣泛的正則表達式是現在開源。他們的應用程序旨在掃描新聞文章,評論和各種公共數據源,並將它們與特定位置相關聯,並且運行良好。 「20號東北角大樓和舊金山瓦倫西亞大街的建築物中的火災」等表達式的地理編碼非常準確。你可以研究來源here。您可能需要的特定部分是ebpub/ebpub/geocoder/base.py,位於ebpub下載中,以及它周圍的所有內容,例如從SmartGeocoder類開始並向後工作。

0

我在geocode.xyz

建立一個自由geoparser(目前支持約50個歐洲國家,不久將提供全球覆蓋)

geoparsing的示例應用程序可以在OpenWikiMap