我需要幫助python編程: 我需要一個命令,可以搜索文本文件中標籤之間的所有單詞。例如 在文本文件中有<concept> food </concept>
。我需要搜索<concept>
和</concept>
之間的所有單詞並顯示它們。 任何人都可以幫忙.......蟒蛇搜索標籤
Q
蟒蛇搜索標籤
1
A
回答
3
- 將文本文件加載到一個字符串中。
- 使用
pos2 = s.find('</concept>', pos1)
你所尋求的話是那麼s[pos1+len('<concept>'):pos2]
1
看一看正則表達式搜索使用pos1 = s.find('<concept>')
<concept>
中第一次出現的字符串</concept>
。 http://docs.python.org/library/re.html 如果你想有例如標籤<i>
,嘗試
text = "text to search. <i>this</i> is the word and also <i>that</i> end"
import re
re.findall("<i>(.*?)</i>",text)
這裏有一個簡短的說明的findall是如何工作的:它看起來對於一個給定的正則表達式給出的字符串中。正則表達式是<i>(.*?)</i>
:
<i>
表示剛開始標記<i>
(.*?)
創建組和匹配儘可能直到它的第一</i>
,其總結了標籤
請注意,上述解決方案沒有類似於
<i> here's a line
break </i>
既然你只是想提取單詞。
但是,當然也可以這樣做:
re.findall("<i>(.*?)</i>",text,re.DOTALL)
3
沒有爲HTML/XML一個偉大的圖書館中橫過命名BeautifulSoup。有了它:
from BeautifulSoup import BeautifulStoneSoup
soup = BeautifulStoneSoup(open('myfile.xml', 'rt').read())
for t in soup.findAll('concept'):
print t.string
相關問題
- 1. 蟒蛇BeautifulSoup搜索標籤
- 2. 搜索蟒蛇
- 3. XML搜索蟒蛇
- 4. 蟒蛇imaplib搜索多個標準
- 5. 通過搜索蟒蛇
- 6. 搜索前/後蟒蛇imaplib
- 7. 蟒蛇矩陣搜索
- 8. 蟒蛇LDAP3搜索LDAPOperationsErrorResult
- 9. 蟒蛇HTML標籤提取
- 10. 蟒蛇搜索和寫入文件
- 11. 搜索清單列表 - 蟒蛇
- 12. 斐波那契搜索蟒蛇:
- 13. 蟒蛇深度優先搜索遞歸
- 14. 蟒蛇正則表達式搜索
- 15. 蟒蛇彈性搜索最近發出
- 16. 搜索標籤
- 17. 分隔符標籤的蟒蛇
- 18. 蟒蛇硒無法點擊標籤
- 19. 蟒蛇 - 改變Tkinter的標籤
- 20. 在硒蟒蛇中查找標籤
- 21. 蟒蛇中沒有標籤的圖例
- 22. 蟒蛇薩克斯XML名稱標籤
- 23. 蟒蛇SQLAlchemy的標籤使用
- 24. 蟒蛇發現標籤的指數串
- 25. SourceSafe標籤搜索
- 26. Symfony搜索標籤
- 27. Twitter搜索標籤
- 28. 蟒蛇格式,並簽署
- 29. 使用搜索框在兩個標籤中搜索標籤
- 30. 蟒蛇,索引錯誤
這種方法沒有考慮註釋和標記與空格考慮如果問題的作者暗示XML – nkrkv 2010-06-25 07:21:53
+1爲了簡單 – jensgram 2010-06-25 07:22:42