data-ingestion

0熱度

1回答

我的上下文是; 10個csv文件在夜間上傳到我的服務器。我的過程是：食入：放在HDFS文件創建ORC蜂巢表，並把他們的數據。處理：星火處理：改造，清洗，加入.... 很多鏈接步驟（火花作業）我搜索最佳實踐來自動化第一部分並觸發第二部分。 Cron，sh，dfs put。 Oozie？ Apache Nifi？ Flume？ Telend :( 我也看https://kylo.io/，

1熱度

1回答

Gobblin - 如何從Facebook上發帖

我一直在調查Gobblin一段時間，目前我在使用Gobblin從Facebook獲取帖子時遇到困難。我在互聯網上找不到任何連接示例，或者我可能錯誤地搜索了它。我正在研究將restfb集成到Gobblin，但是在Gobblin中，有一個帶連接器，源和提取器的RestAPI類，並且我正在努力尋找將這些結合在一起的方法。你能幫我一個關於如何實施這個簡單的指南，或指向我的正確指示？非常感謝你提前。

0熱度

1回答

卡夫卡連接會在0.9版本的工作任務在0.10.2

不工作，當我運行我的卡夫卡連接的工作，我得到以下 [2017-04-25 14:56:22,806] ERROR Failed to create job for ./etc/kafka-connect-jdbc/sqlserver.properties (org.apache.kafka.connect.cli.ConnectStandalone:88) [2017-04-25 14:56:2

1熱度

1回答

使用目錄掃描運算符處理具有特定擴展名的大文件

我有一個1GB +大小的文件從MQ來到我的目錄，這需要一些時間才能完全傳輸該文件，但是該文件將在該目錄中生成，即使它不是一個完整的。恐怕我的目錄掃描器將會收到一個不完整的文件。此外，我不能添加最初的延遲，因爲我不知道傳輸文件需要多長時間。 PS：我在某處讀到某些文件傳輸協議通過向文件添加一個不同的擴展名來處理這個問題，直到完成爲止。所以說我的目錄掃描器運營商正在等待任何擴展名爲.txt的文件，

0熱度

1回答

Kafka和Hadoop的數據攝入 - 如何避免質量檢查失敗導致的數據重複？

這是一個簡化的場景：需要來自同一個源的相同原始數據的N個業務流。使用Kafka（普通卡夫卡管道）攝入數據並登陸HDFS，在每個流量的原始數據上觸發自動質量檢查流程。所有N個流可能具有不同的數據質量標準。例如，他們可能會要求將日期和時間的不同格式應用於原始數據，以便將其轉換爲所需的模式。處理失敗以滿足業務流程質量測試KPI的最佳方法是什麼？的選項有：失敗的所有 - 通知源數據提供者和等待

0熱度

1回答

RDBMS中的sqoop導出更新表記錄MySQL

所以我試圖在MySQL中的RDBMS表中執行更新。問題是這個更新來自我的HDFS中的一個文件，儘管在MySQL中，當我更新記錄時，表中包含主鍵，並且結果集在描述中出現了重複的值，而用新的鍵。在記錄下面的例子中財務應當與值9上前只有一次，而是，我有兩個記錄，先用鑰匙2，第二個具有關鍵9. 我Sqoop代碼： sqoop export --connect jdbc:mysql://xxxxxx/ret

1熱度

2回答

你怎麼攝取春天開機登錄直接進入彈性

我調查直接發送春天啓動應用程序登錄到彈性搜索feasability。不使用filebeats或logstash。我相信Ingest插件可能對此有所幫助。我最初的想法是這樣的logback使用TCP上的事情。 https://github.com/logstash/logstash-logback-encoder <?xml version="1.0" encoding="UTF-8"?> <c

0熱度

1回答

從mysql表更新與sqoop配置單元表

我已經有一個名爲角色的配置單元表。我需要用來自mysql的信息更新此表。所以，我已經使用這個腳本認爲它會添加和我的蜂巢表更新新的數據：` sqoop import --connect jdbc:mysql://nn01.itversity.com/retail_export --username retail_dba --password itversity \ --table roles --s

0熱度

3回答

使用GET方法將數據流式傳輸到Google BigQuery？

我需要一個很好的解決方案，最好是現有的解決方案，例如Google Rest API，以便將數據傳輸/插入到BigQuery中。我不想使用POST方法發送數據 - 出於許多設計原因。我期望每秒寫入數千次。數據將被附加到url的查詢參數中。它與谷歌分析非常類似，使用Get方法發送分析數據。

1熱度

1回答

GPFdist從平面文件插入錯誤'編碼錯誤'字節序列'UTF8'：0x00'插入

我正在寫一個過程中的問題，我正在寫入從大型平面文件中獲取數據。 wrFile = io.open("outFile","w+",encoding='utf8') 我讀通過使用線源文件行：：我使用與UTF8規格Python包裝如下預處理平面文件 lineACT = linecache.getline("inFile", i+j) lineNxt = linecache.getline("inFile