web-scraping

    6熱度

    2回答

    我正在做一個項目,爲此我需要知道所有維基百科文章的名稱(我不需要這些內容)。有沒有可以下載這些數據的地方?

    1熱度

    1回答

    我在這裏嘔吐,希望有人能夠充分了解Numpy的C API中新的NpyIter API,以便快速告訴我我做錯了什麼。 我有一個形狀(真的很大,有點大)的數組。元素是雙打> = 0。對於每一行,我需要找到總和爲最大值的連續非零值的總和。我不知道有什麼方法可以在Python中很快完成此操作(有時真的很大),所以我一直在使用Weave。 在我以前的代碼,我有以下幾點: double *p1,*res;

    -1熱度

    2回答

    我們正在使用網絡抓取工具,並設置了一個具有隨機功能的睡眠功能(因此每次掃描之間的時間並不相同),但我們仍然在20分鐘後被雅虎阻止。 30個請求。 是否有人知道是否有限制(即:每分鐘20個請求,每小時200個)現在我們每個請求之間的平均值大約爲3-6秒。感謝您的任何幫助

    1熱度

    1回答

    任何人都可以提供一個很好的名稱來源,我可以用它來幫助分析網頁上的一些表格。 我刮的表格的第一列只有名稱,名稱和標題或只是標題。 名稱可以像John Smith到Vikram Saksena一樣變化。 我一直在尋找可以用正確名稱找到的單詞彙編列表。 編輯我試過從人口普查設置的名稱,它有這麼多的垃圾,它不值得使用。

    0熱度

    2回答

    我決定編寫一個應用程序,如:http://michaelgrinich.com/hackernews/,但對於Android設備,我的想法將使用Web應用程序後端(因爲我寧願使用Python和Web進行代碼編寫,而不是使用Java for Android設備編寫代碼)。 我已經把現在實行的是這樣的: $ curl -i http://localhost:8080/stories.json?page

    8熱度

    2回答

    我正在通過Building an MVC 3 App with Code First and Entity Framework 4.1教程MSDN和就死在「默認此外,這個數據庫將是一個SQL Express數據庫從強類型得出的名字上下文的名稱及其文件將位於SQL Express默認數據文件夾中。「 如果我想更改默認值(例如,將MDF文件放在我的App_Data文件夾中),我該怎麼做?我將有幾個不同

    2熱度

    1回答

    我在ASPX中動態生成表時遇到困難。試圖從這樣的網站上剔除天然氣價格GasPrices。我可以提取天然氣價格表中的所有信息(地址,提交時間等),但實際天然氣價格除外。 有沒有一種方法可以削減汽油價格?即以某種方式得到它的文本表示。我對ASP/ASPX不是很熟悉,但是現在生成的東西並沒有在最終的HTML中顯示出來。我使用Python做刮擦,但這是無關的,除非有一個特定的庫... 在此先感謝。

    1熱度

    4回答

    我試圖從網頁中使用php cURL + preg_match或任何其他函數提取一些信息,但由於某些原因它根本不起作用。 例如,從this page, 我想提取「4牀房子出租, Caroline Place,Bayswater,W2」的標題,價格是「2,300」,並且以「This fantastic ... 「並結束於」(Circle and District Lines)「。 我試圖使用PHP c

    1熱度

    2回答

    我試過使用下面的命令來下載ctrl alt del漫畫。 $ for filename in $(seq 20021023 20100503); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done 我碰到下面的錯誤代碼,bash: syntax error near unexpected token 'do

    1熱度

    1回答

    對於我的應用程序,我使用的是我有三個面板的手風琴佈局,並且我嘗試將面板(texview)大小設置爲適合該設備的大小當屏幕方向發生變化時,此功能不起作用。根據設備處於橫向時的高度,我的視圖尺寸不會改變。請幫助我。 這是我的代碼 if(layoutView.getId() == R.id.Advertitletext) { openLayout = panel1; v = pan