boilerpipe

1熱度

1回答

我編寫了一個網絡爬蟲。但是，抓取時會下載太多的GB數據。我想只讀取文字（避免圖像...等）。我用Boilerpipe來提取HTML內容這裏是我找到最終的重定向URL public String getFinalRedirectedUrl(String url) throws IOException{ HttpURLConnection connection; String

0熱度

1回答

寶石安裝沒有找到現有的寶石

當運行創業板安裝，我得到以下幾點： [email protected] test $ gem install jruby-boilerpipe ERROR: Could not find a valid gem 'jruby-boilerpipe' (>= 0) in any repository ERROR: Possible alternatives: boilerpipe, jruby-

0熱度

1回答

導入錯誤：沒有模塊名爲boilerpipe

當我打電話下面的代碼每次： from boilerpipe.extract import Extractor 我得到的錯誤，指出： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.linux-x86_64/egg/boilerpipe/__ini

0熱度

1回答

Android Studio：添加鍋爐庫後出現錯誤

我正在嘗試使用[boilerpipe] [1]解析文本。我將boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和xerces-2.9.1.jar複製到lib文件夾並將它們添加爲庫。但是當我嘗試運行這個項目時，我得到了一個巨大的錯誤。下面是它的最終分部分 FAILURE: Build failed with an exception. * What went wro

0熱度

1回答

Android Studio：來自boilerpipe的java.lang.NoClassDefFoundError

我正在嘗試使用boilerpipe來獲取文本文章，如口袋應用程序。應用程序編譯正確，但給運行時異常： java.lang.RuntimeException: An error occurred while executing doInBackground() at android.os.AsyncTask$3.done(AsyncTask.java:309) at java.u

0熱度

1回答

阿帕奇提卡如何提取HTML機身採用了頁眉和頁腳內容

我期待提取HTML的整個身體除了內容頁眉和頁腳，但我得到異常 org.xml.sax.SAXException：命名空間http://www.w3.org/1999/xhtml沒有宣佈下面是我的代碼，我已經創造提到at import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStrea

2熱度

2回答

Boilerpipe-py3的安裝嘗試給404錯誤

Boilerpipe是一個偉大的Java程序，用於清理網頁，我過去曾使用它。我今天注意到許多用戶不能安裝Python包裝版本並且得到404和其他錯誤。這是我從conda中複製的一個嘗試。 /用戶/鄧肯>須藤-H PIP安裝https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 收集

0熱度

2回答

Boilerpipe依賴沒有找到

根據https://github.com/Netbreeze-GmbH/boilerpipe鍋爐管maven的依賴是 <dependency> <groupId>de.l3s.boilerpipe</groupId> <artifactId>boilerpipe-core</artifactId> <version>1.2.2</version> </depende

0熱度

1回答

pip安裝boilerpipe失敗，tarfile.ReadError：空文件

我嘗試通過pip安裝boilerpipe，但失敗。這裏是日誌。從命令python setup.py egg_info完整輸出：在/ tmp/PIP-集結J2gFYC/boilerpipe Traceback (most recent call last): File "<string>", line 20, in <module> File "/tmp/pip-build-

3熱度

1回答

如何從網頁中提取主要內容？

我想寫一個網頁內容的摘要。爲此，我需要從網頁中提取所有不相關的文本和數據。我已經使用了boilerpipe，但是文字提取效果不好。結果是here，在這裏你可以看到很多不相關的文字。也嘗試JSoup廢除不相關的數據，通過刪除頁眉，頁腳，外部鏈接等，但同樣，結果不符合標準。 Document doc = Jsoup.connect("www.anyurl.com").get() doc.