我將如何去使用c編寫一個程序來剝離通過Linux終端輸入的網頁,並刪除所有的HTML標籤和圖像,並把剩餘內容放入文件中。如何使用c去掉HTML標籤和圖像從網頁到文件
我只是困惑於如何從終端獲取網頁。
感謝您的幫助。
我將如何去使用c編寫一個程序來剝離通過Linux終端輸入的網頁,並刪除所有的HTML標籤和圖像,並把剩餘內容放入文件中。如何使用c去掉HTML標籤和圖像從網頁到文件
我只是困惑於如何從終端獲取網頁。
感謝您的幫助。
curl
,wget
,aria2c
等下載網頁。如果要使用C下載網頁,可以使用libcurl。要獲取示例代碼如何使用libcurl下載http://stackoverflow.com
,請使用以下命令。
curl --libcurl downloadstackoverflow.c http://stackoverflow.com
這將生成一個包含示例代碼的文件downloadstackoverflow.c
。
這是一個簡單的程序,從html中剝離標籤。它不支持引號"
中的標籤。但你應該明白這個主意。
int main() {
int in_tag = 0;
char c;
while ((c = getchar()) != EOF) {
if (c == '<' || c == '>') {
in_tag = (c == '<') ? 1 : 0;
} else {
if (!in_tag) {
putchar(c);
}
}
} }
您可以使用wget從終端下載de頁面。使用類似「wget http://www.google.com -O filename.html」。它會將頁面下載到文件「filename.html」。
我不明白:什麼終端有一個網頁,怎麼辦?如果您想從C程序中獲取網頁的內容,請使用libcurl之類的網絡庫。 – Gilles 2012-02-24 17:52:35