0
我有一個數據集,其中一列的標題是「什麼是您的位置和時區?」使用python從文本中提取城市名稱
這意味着,我們有像
- 丹麥項,CET
- 地點是英國德文郡,GMT時區
- 澳大利亞。澳洲東部標準時間。 + 10h UTC。
甚至
- 我的位置是俄勒岡州尤金市全年大部分時間還是在首爾, 韓國因學校放假。我的主要時區是太平洋時區的 。
- 對於整個五月我會在英國倫敦(GMT + 1)。在整個六月,我將在挪威(GMT + 2)或以色列 (格林威治標準時間+3)與有限的互聯網接入。對於整個七月和八月 我將在英國倫敦(格林威治標準時間+ 1)。然後從 月,2015年,我公司將在美國波士頓(EDT)
有沒有辦法從這個提取城市,國家和時區?
我正在考慮創建一個包含所有國家/地區名稱(包括簡短形式)以及城市名稱/時區的數組(包含開放源數據集),然後如果數據集中的任何單詞與城市/國家/時區或簡短形式將其填充到同一數據集中的新列並對其進行計數。
這是否實用?
=========== REPLT基於NLTK ANSWER ============
運行相同的代碼,Alecxe我得到
Traceback (most recent call last):
File "E:\SBTF\ntlk_test.py", line 19, in <module>
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 141, in __init__
self.load(AP_MODEL_LOC)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 209, in load
self.model.weights, self.tagdict, self.classes = load(loc)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 801, in load
opened_resource = _open(resource_url)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 924, in _open
return urlopen(resource_url)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 454, in _open
'unknown_open', req)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 1265, in unknown_open
raise URLError('unknown url type: %s' % type)
URLError: <urlopen error unknown url type: c>
這是如何工作的?好像是巫術 – Keatinge
@Racialz'nltk'經常令人驚訝!我遠不是NLP的專家,但試圖增加更多的解釋和鏈接進一步閱讀。感謝您詢問詳細信息! – alecxe
輝煌。我不知道NTLK - 我會試驗這個,然後(希望)接受答案:-) – GeorgeC