如何使用c去掉HTML標籤和圖像從網頁到文件

我將如何去使用c編寫一個程序來剝離通過Linux終端輸入的網頁，並刪除所有的HTML標籤和圖像，並把剩餘內容放入文件中。如何使用c去掉HTML標籤和圖像從網頁到文件

我只是困惑於如何從終端獲取網頁。

感謝您的幫助。

2012-02-24 user667430

我不明白：什麼終端有一個網頁，怎麼辦？如果您想從C程序中獲取網頁的內容，請使用libcurl之類的網絡庫。 – Gilles 2012-02-24 17:52:35

您可以通過各種程序使用這些程序使用寫你的C程序剝去標籤獲得終端的網頁，如curl，wget，aria2c等下載網頁。
如果要使用C下載網頁，可以使用libcurl。要獲取示例代碼如何使用libcurl下載http://stackoverflow.com，請使用以下命令。
```
curl --libcurl downloadstackoverflow.c http://stackoverflow.com 
```
這將生成一個包含示例代碼的文件downloadstackoverflow.c。

這是一個簡單的程序，從html中剝離標籤。它不支持引號"中的標籤。但你應該明白這個主意。

int main() { 
    int in_tag = 0; 
    char c; 

    while ((c = getchar()) != EOF) { 
     if (c == '<' || c == '>') { 
      in_tag = (c == '<') ? 1 : 0; 
     } else { 
      if (!in_tag) { 
       putchar(c); 
      } 
     } 
    } }

來源

2012-02-24 16:23:49

您可以使用wget從終端下載de頁面。使用類似「wget http://www.google.com -O filename.html」。它會將頁面下載到文件「filename.html」。

來源

2012-02-24 16:20:46

如何使用c去掉HTML標籤和圖像從網頁到文件

回答

相關問題