我有一個python腳本,它從pastebin.com/archive中提取URL,它具有粘貼鏈接(它在url中的pastbin.com後有8個隨機數字)。我當前的輸出是一個.txt文件,其中包含下面的數據,我只希望粘貼鏈接(例如:http://pastebin.com///Y5JhyKQT),而不是指向其他頁面(如pastebin.com/tools)的鏈接。這是我可以設置wget去拉每個單獨的粘貼。提取具有特定字符數的行
我可以考慮這樣做的唯一方法是編寫一個bash腳本來計算每行中的字符數,並且只保留包含30個字符的行(這是鏈接到粘貼的URL的長度)。
我不知道如何使用grep或awk來實現類似這樣的事情,也許使用while while循環?任何幫助,將不勝感激!
http://pastebin.com///tools
http://pastebin.com//top.location.href
http://pastebin.com///trends
http://pastebin.com///Y5JhyKQT <<< I want to keep this
http://pastebin.com//=
http://pastebin.com///>
你可以在Python中輕鬆完成,所以你不必得到噪聲,然後用wget檢查它。看到我的答案python下面。如果超過長度,則不要寫入文件。 –
你說你想保留的行在'Y5JhyKQT'結尾,所以在末尾沒有'8個隨機數字',所以我假設你的意思是'8個隨機字母數字字符。那麼,如果以「潮流」而不是「趨勢」爲代表的8個字符的單詞結尾,那麼您如何區分那些在「趨勢」之前不需要的行?或者,這只是一個完全不相干的紅鯡魚你扔在那裏,所有真正重要的是行長是30個字符? –