0

我有一個90 GB的文件.csv我想讓我的本地計算機上,然後上傳到谷歌的BigQuery進行分析的想法。我創建成千上萬的小.csv文件合併成10中型文件,然後結合這些中等大小的文件到90 GB的文件,然後我想要移動到吉貝此文件。我在爲這個項目苦苦掙扎,因爲我的電腦因內存問題而不斷崩潰。從this視頻我明白我應該中型.csv文件(約9每個GB)首先轉變成.gz文件(約500MB每一個),然後將這些.gz文件上傳到谷歌雲存儲。接下來,我將創建一個空表(在Google BigQuery/Datasets中),然後將所有這些文件附加到創建的表中。我遇到的問題是找到一些有關如何執行此操作的教程或有關如何執行此操作的文檔。我是新來的谷歌平臺,所以也許這是一個非常簡單的工作,可與1次點擊某個地方來完成,但所有我能找到的就是從我上面鏈接的視頻。我在哪裏可以找到一些關於人們如何做到這一點的幫助或文檔或教程或視頻?我對工作流程有正確的想法嗎?有沒有更好的方法(如使用一些可下載的GUI來上傳東西)?如何將.gz文件上傳到Google Big Query?

+0

你並不需要將文件合併成一個大文件。只需創建你的數據集和表,並使用python,java,ruby或去處理每個文件(或一組文件)並將它們加載到bigquery。我最近做了類似python的事情。讓我知道你是否需要底漆。 – Abdou

回答

1

在這裏看到的說明: https://cloud.google.com/bigquery/bq-command-line-tool#creatingtablefromfile

由於阿卜杜在評論中提到,你不需要他們提前合併的時間。只需將所有小型CSV文件gzip,上傳到GCS存儲區,然後使用「bq.py load」命令創建一個新表。請注意,您可以使用通配符語法來避免列出要加載的所有單個文件名。

的--autodetect標誌可以讓你避免手動指定的模式,雖然這依賴於從採樣輸入,並可能需要修正,如果它失敗,在某些情況下檢測。