我有一個字符串,其中包含通過WinHttpReadData
下載的HTML頁面。該字符串是一個簡單的char*
。
我一直在想辦法只提取那個頁面上的URL。舉個例子,想象一下你正在谷歌搜索WinHTTP這個詞,並且你會看到一個充滿鏈接的HTML頁面。我現在需要檢查每個鏈接,將其解壓並保存到文件中。解析HTML頁面中的URL
我試着搜索HREF
,http://
和其他關鍵字,然後嘗試提取字符串一直到</a>
,但它不是真的工作。也可以從URL中獲取描述(如<a href="http://someurl.com/somepage.html">some text</a>
獲得some text
),但它不像URL本身那麼重要。
這裏棘手的是我不能使用第三方庫,因爲我不想處理許可證等。
有關如何做到這一點的任何想法? WinHTTP提供了一種方法來做到這一點?在C中(而不是 C++)?
感謝您的幫助
「因爲我不想處理許可證之類的問題」 - 只需找到根據LGPL許可的HTML解析器即可。那麼只要你不修改庫本身,你基本上可以使用它,而不必關心任何東西。 – ThiefMaster 2011-03-01 14:38:52
已經嘗試過,找不到一個是BSD,MOZILLA或LGPL。感謝壽。 – 2011-03-01 14:49:29