dplyr SQL連接

請看下面的SQL：dplyr SQL連接

SELECT D.product_name 
     FROM business.payment P 
LEFT JOIN dim.product_name D 
     ON D.product_id = P.product_id

查詢返回是在支付表，這樣做基於聯接product_names名單。

如何將這樣的東西複製到dplyr中而不會拉進內存？我正在使用數據庫連接。

我嘗試以下，但無濟於事：

product_name <- 
    business %>% 
    tbl('dim_product') 

business %>% 
    tbl('payment') %>% 
    left_join(product_name, by = 'product_id') %>% 
    select(product_name) %>% 
    collect()

我已經搜查相當大的，沒有一個似乎已經解決了這個。

謝謝！

來源

2016-10-05 Phillip Black

R將所有對象存儲在內存中。所以，如果你使用的是'dplyr'，你就在對象上，因此在內存中使用它。話雖如此，你可以在'dplyr'中使用任意的SQL，例如'tbl（my_db_extract_now_in_memory，sql（「SELECT * FROM flights」））'但它總是在內存中。 –

我試圖嚴格使用dplyr來做到這一點。在collect（）觸發之前，懶惰不應該將它們帶入內存。 –

在'dplyr'中這樣做是沒有問題的，但我只是說它一旦被提取就會在內存中。請注意，這是沒有什麼不同的，然後通過任何其他方式通過R查詢數據庫，例如'RODBC'。它不會在內存中的一種方式是，如果你使用'RPostgres'或'RODBC'等發送一個SQL查詢，並用它在數據庫*中創建一個新表*並且從不將數據導出到R –

您可以使用任意的SQL在dplyr：

tbl(my_data, sql("SELECT * FROM flights"))

注意，沒有比通過任何其他方式查詢到R的數據塊，如RODBC不同。

當然，提取的數據將通過總是一旦通過查詢導入到R中，它就會在內存中。它不會在內存中的一種方式是，如果您使用RPostgres或RODBC等發送SQL查詢並僅用它在數據庫內創建新表，並且從未將數據導出到R.

來源

2016-10-05 02:22:16

是的，但我試圖用dplyr來做到這一點，所以我只能使用一種語言。 '這樣的事情會被複制到dplyr而不會被拉回到內存中嗎？' –

@PhillipBlack你在說什麼？在我的答案**中的代碼是**'dplyr'，我回答了你的問題，而不是將它拉進內存。就像我所說的，你可以在'dplyr'內使用任意的SQL，就像我的例子。參見'？tbl'並閱讀精細手冊https://cran.r-project.org/web/packages/dplyr/dplyr.pdf和https://cran.r-project.org/web/packages/dplyr/插圖/數據庫。html –

@PhillipBlack所以，回顧一下，正如你所提到的，'dplyr'可以通過懶惰等到最後一秒，也就是說它只是將最終提取（不是中間表）提取到內存中，這正是我的代碼中發生的事情回答。對於絕對沒有東西被拉入內存然後（顯然）唯一的解決方案是使用'RODBC'或任何類似的包來查詢你的數據到你的數據庫中一個新創建的表，從而完全繞過R。 –

這是一段時間後，但也許你仍然在尋找或好奇的基於dplyr動詞的選項。我正在爲我的工作研究同樣的問題，並且遇到了你的（某種）未解答的問題。當我使用DBI和odbc包對MSSQL數據庫運行時，下面的代碼適用於我。

我在加入之前從表格中選擇感興趣的列，因爲這在查詢數據庫時通常是最佳做法。 dplyr連接函數將默認進行自然連接，因此您可能不必明確提供by參數。

db_con <- DBI::dbConnect(
    drv = odbc::odbc(), 
    dsn = <data source name> 
) 

db_con %>% 
    tbl("table1") %>% 
    select(col1, col2, col3) 
    left_join(
    db_con %>% tbl("table2") %>% select(col3, col4, col5) 
)

來源

2017-10-27 19:26:13

dplyr SQL連接

回答

相關問題