2016-09-23 83 views
1

我一直在研究如何從html中提取標題標籤。我很清楚,正則表達式和html不會混合,並且可以使用grep。然而,我發現here的代碼,如下所示:如何提取多個時間或條件的HTML標籤之間的文本

awk -vRS="</title>" '/<title>/{gsub(/.*<title>|\n+/,"");print;exit}' 

現在,這部作品找到標題標籤之間的文本只有一次。我想知道如何讓它在每一行上都能運行。我可以做一個cat file; while read line; do ...; done。但是,我知道這可能不是非常有效,因爲有更好的方法。

其次,在文件中我需要保留任何以字符串' - '開頭的行。我相信這需要awk添加「或」語句,以便它將匹配的標題標籤,並開始與任何線「 - 」

輸入文件應該是這樣的:

text text text <title>random text of the title 1</title> random html stuff 
--time-- 
xyz more random text <title>random text of the title 2</title> hmtl text 
--time-- 
some text <title>random text of the title 3</title> more text tags 
--time-- 
text here <title>random text of the title 4</title> random text html 
--time-- 

期望輸出:

<title>random text of the title 1</title> 
--time-- 
<title>random text of the title 2</title> 
--time-- 
<title>random text of the title 3</title> 
--time-- 
<title>random text of the title 4</title> 
--time-- 

我對awk沒那麼好,但我在學習。我知道應該有一個打印所有的選項,但這是我真正堅持的OR語句。如果您認爲效率更高,我可以接受sed或grep。任何幫助或方向,不勝感激。

回答

1

對於你的給定輸入,grep足夠

$ grep -o '<.*>\|^--.*' ip.html 
<title>random text of the title 1</title> 
--time-- 
<title>random text of the title 2</title> 
--time-- 
<title>random text of the title 3</title> 
--time-- 
<title>random text of the title 4</title> 
--time-- 
  • -o僅提取匹配部件
  • <.*><高達在線路
  • \|^--.*備用模式,如果符合開始最後>提取--獲得該行的所有內容

僅限制於title標籤,

grep -o '<title.*title>\|^--.*' ip.html 
+0

桑迪普嗨,對不起我的例子不夠詳細,但我想用我的虛擬文本和問題的標題解釋說,其他行是HTML文本,以便在代碼需要指定。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3119675/">DomainsFeatured</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">@DomainsFeatured,'grep -o'<title。* title> \ |^- 。*''不起作用? '標題'標籤分佈在多行上?你可以通過樣本輸入來編輯你的問題嗎? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/4082052/">Sundeep</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">哇。有效。我不敢相信這很簡單。非常感謝。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3119675/">DomainsFeatured</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.voidcc.com/question/p-daopvncq-ud.html" target="_blank" title="提取兩個html標籤之間的文本"> 提取兩個html標籤之間的文本 </a> </li> <li> 2. <a href="http://hk.voidcc.com/question/p-qzgjexbw-bh.html" target="_blank" title="硒,如何提取兩個div標籤之間的文本"> 硒,如何提取兩個div標籤之間的文本 </a> </li> <li> 3. <a href="http://hk.voidcc.com/question/p-gfyxwmmv-em.html" target="_blank" title="如何在XPath中的2個h2標籤之間提取多個文本行?"> 如何在XPath中的2個h2標籤之間提取多個文本行? </a> </li> <li> 4. <a href="http://hk.voidcc.com/question/p-tzhnvbzp-nq.html" target="_blank" title="從xml解析的html標籤之間提取文本"> 從xml解析的html標籤之間提取文本 </a> </li> <li> 5. <a href="http://hk.voidcc.com/question/p-gojovcbn-s.html" target="_blank" title="如何獲取C#中H1標籤之間的HTML文本"> 如何獲取C#中H1標籤之間的HTML文本 </a> </li> <li> 6. <a href="http://hk.voidcc.com/question/p-zkmjflgp-ev.html" target="_blank" title="查找HTML標籤之間的文本"> 查找HTML標籤之間的文本 </a> </li> <li> 7. <a href="http://hk.voidcc.com/question/p-senjnezx-gy.html" target="_blank" title="得到html標籤之間的文本"> 得到html標籤之間的文本 </a> </li> <li> 8. <a href="http://hk.voidcc.com/question/p-axsfretx-du.html" target="_blank" title="Python的 - 如何將多個標籤之間提取元素"> Python的 - 如何將多個標籤之間提取元素 </a> </li> <li> 9. <a href="http://hk.voidcc.com/question/p-subrriqs-rm.html" target="_blank" title="兩個標籤之間的XQuery提取"> 兩個標籤之間的XQuery提取 </a> </li> <li> 10. <a href="http://hk.voidcc.com/question/p-whlygvtb-rn.html" target="_blank" title="Bash。如何獲取標籤之間的多行文本"> Bash。如何獲取標籤之間的多行文本 </a> </li> <li> 11. <a href="http://hk.voidcc.com/question/p-erdjbpab-a.html" target="_blank" title="內置正則表達式類或解析器。如何從html文件中提取標籤之間的文本?"> 內置正則表達式類或解析器。如何從html文件中提取標籤之間的文本? </a> </li> <li> 12. <a href="http://hk.voidcc.com/question/p-thzjneou-tt.html" target="_blank" title="如何使用Regex提取HTML標籤之間的數據?"> 如何使用Regex提取HTML標籤之間的數據? </a> </li> <li> 13. <a href="http://hk.voidcc.com/question/p-sbsohmmc-oy.html" target="_blank" title="Android:提取兩個HTML標記之間的文本"> Android:提取兩個HTML標記之間的文本 </a> </li> <li> 14. <a href="http://hk.voidcc.com/question/p-goxrofkk-sg.html" target="_blank" title="如何在文本之間讀取兩個html標記之間的數據"> 如何在文本之間讀取兩個html標記之間的數據 </a> </li> <li> 15. <a href="http://hk.voidcc.com/question/p-tfhwvlco-rt.html" target="_blank" title="Objective-C HTML解析。獲取標籤之間的所有文本"> Objective-C HTML解析。獲取標籤之間的所有文本 </a> </li> <li> 16. <a href="http://hk.voidcc.com/question/p-nlnmkgnj-ea.html" target="_blank" title="解析HTML(獲取標籤之間的文本/串)"> 解析HTML(獲取標籤之間的文本/串) </a> </li> <li> 17. <a href="http://hk.voidcc.com/question/p-sygwwjle-mn.html" target="_blank" title="提取標籤之間的所有值"> 提取標籤之間的所有值 </a> </li> <li> 18. <a href="http://hk.voidcc.com/question/p-mrzmnbkr-nm.html" target="_blank" title="提取標籤之間的內容"> 提取標籤之間的內容 </a> </li> <li> 19. <a href="http://hk.voidcc.com/question/p-cvhssjqa-vx.html" target="_blank" title="PHP:從網頁中提取特定標籤之間的文本"> PHP:從網頁中提取特定標籤之間的文本 </a> </li> <li> 20. <a href="http://hk.voidcc.com/question/p-pvbyibdw-tw.html" target="_blank" title="如何提取Python中兩個標籤之間的數字?"> 如何提取Python中兩個標籤之間的數字? </a> </li> <li> 21. <a href="http://hk.voidcc.com/question/p-fyzknige-by.html" target="_blank" title="PHP在多個自定義標籤之間獲取文本"> PHP在多個自定義標籤之間獲取文本 </a> </li> <li> 22. <a href="http://hk.voidcc.com/question/p-hoyvycol-do.html" target="_blank" title="使用python湯提取動態HTML標記之間的文本"> 使用python湯提取動態HTML標記之間的文本 </a> </li> <li> 23. <a href="http://hk.voidcc.com/question/p-zxtrwxwi-qq.html" target="_blank" title="獲取html標籤內/ html標籤之間的所有內容"> 獲取html標籤內/ html標籤之間的所有內容 </a> </li> <li> 24. <a href="http://hk.voidcc.com/question/p-ugxnmnzy-ko.html" target="_blank" title="正則表達式提取標籤之間的文本,但不是標籤"> 正則表達式提取標籤之間的文本,但不是標籤 </a> </li> <li> 25. <a href="http://hk.voidcc.com/question/p-mzkxcrsr-ry.html" target="_blank" title="酒吧或標籤之間的間距"> 酒吧或標籤之間的間距 </a> </li> <li> 26. <a href="http://hk.voidcc.com/question/p-qtsanght-hn.html" target="_blank" title="使用bash在文本文件中提取4個標記之間的文本"> 使用bash在文本文件中提取4個標記之間的文本 </a> </li> <li> 27. <a href="http://hk.voidcc.com/question/p-dhhuqdon-e.html" target="_blank" title="如何獲取jQuery加載的HTML標籤之間的內容?"> 如何獲取jQuery加載的HTML標籤之間的內容? </a> </li> <li> 28. <a href="http://hk.voidcc.com/question/p-tlrpubrl-qy.html" target="_blank" title="Android如何提取XML中的標籤之間的數據"> Android如何提取XML中的標籤之間的數據 </a> </li> <li> 29. <a href="http://hk.voidcc.com/question/p-zyqqwepf-uz.html" target="_blank" title="在XML標籤之間提取多個值"> 在XML標籤之間提取多個值 </a> </li> <li> 30. <a href="http://hk.voidcc.com/question/p-ujihdflr-nh.html" target="_blank" title="提取字符串或標籤之間的數據"> 提取字符串或標籤之間的數據 </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515421930"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <!-- VOIDCC问答侧边栏广告 --> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.voidcc.com/question/p-qtaxmfpr-mv.html" target="_blank" title="黑莓設置剪輯區域/區域"> 黑莓設置剪輯區域/區域 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.voidcc.com/question/p-esmsrxuy-cy.html" target="_blank" title="使用Codeigniter/Ion Auth進行ACL實施"> 使用Codeigniter/Ion Auth進行ACL實施 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.voidcc.com/question/p-byeqeinn-ke.html" target="_blank" title="獲取任何tableView函數之外的indexpath"> 獲取任何tableView函數之外的indexpath </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.voidcc.com/question/p-cxlfyhbm-hn.html" target="_blank" title="Laravel 4安裝在服務器不工作"> Laravel 4安裝在服務器不工作 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.voidcc.com/question/p-serkzhky-ts.html" target="_blank" title="Excel的數字格式損壞"> Excel的數字格式損壞 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.voidcc.com/question/p-wvamlwhy-tr.html" target="_blank" title="Activemq - 通過不穩定連接發送大文件的最佳協議"> Activemq - 通過不穩定連接發送大文件的最佳協議 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.voidcc.com/question/p-ztmmvkai-tp.html" target="_blank" title="「JBoss Tools Java Standard Tools AngularJS」將被忽略,因爲它已被安裝"> 「JBoss Tools Java Standard Tools AngularJS」將被忽略,因爲它已被安裝 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.voidcc.com/question/p-kabusjwx-tq.html" target="_blank" title="命令超時| Discord.js"> 命令超時| Discord.js </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.voidcc.com/question/p-gafqpcil-th.html" target="_blank" title="如何獲取此數據?"> 如何獲取此數據? </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.voidcc.com/question/p-pdjmglib-ma.html" target="_blank" title="如何從概念中檢索類型?"> 如何從概念中檢索類型? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.voidcc.com/question/p-daopvncq-ud.html" target="_blank" title="提取兩個html標籤之間的文本"> 提取兩個html標籤之間的文本 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.voidcc.com/question/p-qzgjexbw-bh.html" target="_blank" title="硒,如何提取兩個div標籤之間的文本"> 硒,如何提取兩個div標籤之間的文本 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.voidcc.com/question/p-gfyxwmmv-em.html" target="_blank" title="如何在XPath中的2個h2標籤之間提取多個文本行?"> 如何在XPath中的2個h2標籤之間提取多個文本行? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.voidcc.com/question/p-tzhnvbzp-nq.html" target="_blank" title="從xml解析的html標籤之間提取文本"> 從xml解析的html標籤之間提取文本 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.voidcc.com/question/p-gojovcbn-s.html" target="_blank" title="如何獲取C#中H1標籤之間的HTML文本"> 如何獲取C#中H1標籤之間的HTML文本 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.voidcc.com/question/p-zkmjflgp-ev.html" target="_blank" title="查找HTML標籤之間的文本"> 查找HTML標籤之間的文本 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.voidcc.com/question/p-senjnezx-gy.html" target="_blank" title="得到html標籤之間的文本"> 得到html標籤之間的文本 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.voidcc.com/question/p-axsfretx-du.html" target="_blank" title="Python的 - 如何將多個標籤之間提取元素"> Python的 - 如何將多個標籤之間提取元素 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.voidcc.com/question/p-subrriqs-rm.html" target="_blank" title="兩個標籤之間的XQuery提取"> 兩個標籤之間的XQuery提取 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.voidcc.com/question/p-whlygvtb-rn.html" target="_blank" title="Bash。如何獲取標籤之間的多行文本"> Bash。如何獲取標籤之間的多行文本 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.voidcc.com/contact">聯系我們</a></li> <li>© 2020 HK.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>