2012-02-24 41 views
0

我將如何去使用c編寫一個程序來剝離通過Linux終端輸入的網頁,並刪除所有的HTML標籤和圖像,並把剩餘內容放入文件中。如何使用c去掉HTML標籤和圖像從網頁到文件

我只是困惑於如何從終端獲取網頁。

感謝您的幫助。

+0

我不明白:什麼終端有一個網頁,怎麼辦?如果您想從C程序中獲取網頁的內容,請使用libcurl之類的網絡庫。 – Gilles 2012-02-24 17:52:35

回答

1
  • 您可以通過各種程序使用這些程序使用寫你的C程序剝去標籤獲得終端的網頁,如curlwgetaria2c等下載網頁。
  • 如果要使用C下載網頁,可以使用。要獲取示例代碼如何使用下載http://stackoverflow.com,請使用以下命令。

    curl --libcurl downloadstackoverflow.c http://stackoverflow.com 
    

    這將生成一個包含示例代碼的文件downloadstackoverflow.c

  • 這是一個簡單的程序,從html中剝離標籤。它不支持引號"中的標籤。但你應該明白這個主意。

    int main() { 
        int in_tag = 0; 
        char c; 
    
        while ((c = getchar()) != EOF) { 
         if (c == '<' || c == '>') { 
          in_tag = (c == '<') ? 1 : 0; 
         } else { 
          if (!in_tag) { 
           putchar(c); 
          } 
         } 
        } } 
    
0

您可以使用wget從終端下載de頁面。使用類似「wget http://www.google.com -O filename.html」。它會將頁面下載到文件「filename.html」。

相關問題