2010-11-24 99 views
0

如何從文本中刪除鏈接?我認爲我應該使用sed命令,但我不知道確切的語法。刪除文本鏈接

+0

你應該舉例說明你有什麼和你想要什麼。你的意思是HTML鏈接?你想對文件中其餘的HTML做什麼?您應該使用Perl或Python庫或其他專門用於處理HTML的工具。正則表達式[不足](http://stackoverflow.com/q/1732348/26428#1732454)。 – 2010-11-24 17:22:57

+0

[查找鏈接並將它們從HTML中移除]的可能重複(http://stackoverflow.com/questions/1784507/find-links-and-remove-them-from-html) – 2010-11-24 17:24:03

回答

0

這將刪除一切.com.org結束:

sed 's/\s\?\w\+\.\(com\|org\)//g' foo.txt 

輸入:

lallalalala blabla.com babababab hehehe.org. 

輸出:

lallalalala babababab. 

編輯:這裏是POSIX標準。我還添加了一些更多的字符匹配情況下,有可能是子域或協議(http://

sed 's/[[:space:]]\?[A-Za-z0-9_\/\:\.-]\+\.\(com\|org\)//g' foo.txt 

另外請注意,這並不能掩蓋該域名後綴後引用資源的所有可能的URL字符的URL( example.com/query?foo=bar)。