boilerpipe

    1熱度

    1回答

    我編寫了一個網絡爬蟲。但是,抓取時會下載太多的GB數據。 我想只讀取文字(避免圖像...等)。 我用Boilerpipe來提取HTML內容 這裏是我找到最終的重定向URL public String getFinalRedirectedUrl(String url) throws IOException{ HttpURLConnection connection; String

    0熱度

    1回答

    當運行創業板安裝,我得到以下幾點: [email protected] test $ gem install jruby-boilerpipe ERROR: Could not find a valid gem 'jruby-boilerpipe' (>= 0) in any repository ERROR: Possible alternatives: boilerpipe, jruby-

    0熱度

    1回答

    當我打電話下面的代碼每次: from boilerpipe.extract import Extractor 我得到的錯誤,指出: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.linux-x86_64/egg/boilerpipe/__ini

    0熱度

    1回答

    我正在嘗試使用[boilerpipe] [1]解析文本。我將boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和xerces-2.9.1.jar複製到lib文件夾並將它們添加爲庫。但是當我嘗試運行這個項目時,我得到了一個巨大的錯誤。下面是它的最終分部分 FAILURE: Build failed with an exception. * What went wro

    0熱度

    1回答

    我正在嘗試使用boilerpipe來獲取文本文章,如口袋應用程序。應用程序編譯正確,但給運行時異常: java.lang.RuntimeException: An error occurred while executing doInBackground() at android.os.AsyncTask$3.done(AsyncTask.java:309) at java.u

    0熱度

    1回答

    我期待提取HTML的整個身體除了內容頁眉和頁腳,但我得到異常 org.xml.sax.SAXException:命名空間http://www.w3.org/1999/xhtml沒有宣佈 下面是我的代碼,我已經創造提到at import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStrea

    2熱度

    2回答

    Boilerpipe是一個偉大的Java程序,用於清理網頁,我過去曾使用它。我今天注意到許多用戶不能安裝Python包裝版本並且得到404和其他錯誤。這是我從conda中複製的一個嘗試。 /用戶/鄧肯>須藤-H PIP安裝https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 收集

    0熱度

    2回答

    根據https://github.com/Netbreeze-GmbH/boilerpipe鍋爐管maven的依賴是 <dependency> <groupId>de.l3s.boilerpipe</groupId> <artifactId>boilerpipe-core</artifactId> <version>1.2.2</version> </depende

    0熱度

    1回答

    我嘗試通過pip安裝boilerpipe,但失敗。 這裏是日誌。 從命令python setup.py egg_info完整輸出:在/ tmp/PIP-集結J2gFYC/boilerpipe Traceback (most recent call last): File "<string>", line 20, in <module> File "/tmp/pip-build-

    3熱度

    1回答

    我想寫一個網頁內容的摘要。爲此,我需要從網頁中提取所有不相關的文本和數據。 我已經使用了boilerpipe,但是文字提取效果不好。結果是here,在這裏你可以看到很多不相關的文字。 也嘗試JSoup廢除不相關的數據,通過刪除頁眉,頁腳,外部鏈接等,但同樣,結果不符合標準。 Document doc = Jsoup.connect("www.anyurl.com").get() doc.