bigdata

    0熱度

    1回答

    我正在設計一個以讀取的平面文件開始的數據管道。文件中的每一行都是單個記錄。 加載之後,每個記錄都將被解析,轉換和豐富。這發生與其他記錄無關。 作爲最後一步,我想基於幾個記錄的字段的模糊匹配來重複記錄記錄。要做到這一點,我想獲得2記錄的所有組合。 當前我使用sql表作爲緩衝區。我的表中包含的所有記錄,我加入了表本身,on即鍵不同的條件,並在名稱模糊匹配與sounds like: CREATE TAB

    -1熱度

    2回答

    我首先想對我試圖解決的問題進行一點概述。我的服務經常從Instagram,Twitter等不同來源獲取帖子,我想將帖子存儲在S3上的一個大型JSON文件中。文件名將如下所示:{slideshowId}_feed.json 我的網站將以幻燈片形式顯示帖子,幻燈片將每分鐘輪詢一次S3文件以獲取最新數據。它甚至可能輪詢另一個文件,例如{slideshowId}_meta.json,它具有時間戳,從大文件

    3熱度

    1回答

    我們目前正在研究使用多個列族對我們的bigtable查詢性能的影響。我們發現將列拆分成多個列族不會提高性能。有沒有人有過類似的經歷? 關於我們的基準設置的更多細節。此時,我們生產表中的每行包含大約5列,每列包含0.1到1 KB的數據。所有列都存儲在一個列族中。在執行行鍵範圍過濾器(平均返回340行)並應用列正則表達式過濾器(每行只返回1列)時,查詢平均需要23,3ms。我們創建了一些測試表,我們將

    -1熱度

    1回答

    我們使用PHP 7,並在只有128 MB RAM的Web服務器上運行MySQL數據庫。 我們在處理大量數據集時遇到了問題。 簡單描述:我們有40,000個產品,我們希望收集這些產品的數據以找出是否需要更新。從另一個具有10百萬個數據集的表中收集特定數據的查詢需要1.2秒,因爲我們有一些SUM函數。我們需要爲每個產品單獨進行查詢,因爲與SUM相關的時間範圍有所不同。由於大量的查詢,應該遍歷所有產品的

    1熱度

    1回答

    我有一個要求,我需要設置hadoop來保存文件,而不僅僅是文本文件,它可以是圖像視頻pdf。並且會有一個Web應用程序,用戶可以根據需要添加文件和訪問文件。 它可以實現嗎? Web應用程序也需要由我來開發。謝謝。

    0熱度

    2回答

    我想要分析ML的目的,我在csv中有大量值大約50GB的數據。然而,要適應Python,這是一個很大的方法。我最好希望使用mySQL,因爲查詢更容易。任何人都可以提供一些技巧供我研究。這一點可以從任何東西: 如何將其存儲在首位,我知道我可能無法一次全部加載它,我會做反覆?如果是的話,我可以爲此考慮些什麼?另外我聽說過索引,這是否真的會加快對如此龐大數據集的查詢? 是否有更好的技術來處理這些數據,並

    1熱度

    1回答

    我想插入約19000數據到MySQL數據庫和PHP,但隨着負載頁面或cron作業只增加了大約2000年,我怎麼可以將所有數據 foreach($inventories as $item){ $this->model->AddInventory($item); }

    -3熱度

    1回答

    需求是使用Scala或Spark編程計算卡夫卡主題中的消息數。我對這兩種編程都很陌生,所以我不確定該怎麼做。任何人都可以幫我編寫代碼或指導我如何實現。

    1熱度

    1回答

    我需要在Stream Set管道中映射10000個列表並需要從(csv)文件向其發送數據。因此,通過提及列名稱來映射流集應用程序中的每個列對於10000列來說是非常大的任務。 所以任何人都可以回答什麼是實現它的任何其他簡單方法? 或者我可以通過使用其REST API來實現它嗎? 在此先感謝。

    0熱度

    1回答

    我的數據由vehicle_ID,x和y座標(位置),車輛速度,行駛時間組成。我們想知道哪些車在走相同的道路? 這是我與1號車用ID 1數據的樣本,我有70萬個車輛IDS分析 所以基本上我需要對我們如何才能弄清楚什麼是不同的道路,以及我們如何能seprate見解從另一條路走一條路? time vehicleID X Y speed 37081 1 13379.67 13854.