下面是我想到的hadoop框架處理文本文件。如果我在某個地方出錯,請糾正我。DBRecordReader創建多少次?
每個映射器都作用於包含某些記錄的輸入拆分。 對於每個輸入分割,將創建一個記錄閱讀器,該閱讀器開始從輸入分割中讀取記錄。 如果輸入拆分中有n條記錄,則映射器中的映射方法將被調用n次,然後使用記錄讀取器讀取一個鍵值對。
現在來到數據庫的角度 我在單個遠程節點上有一個數據庫。我想從這個數據庫的表中獲取一些數據。我將使用DBConfigure配置參數,並使用DBInputFormat提及輸入表。現在說,如果我的表共有100條記錄,並執行一個SQL查詢,它會在輸出中生成70條記錄。
我想知道:
如何在InputSplits得到在上述情況下(數據庫)創造出來的?
輸入拆分創建依賴於什麼,我的sql查詢生成的記錄數或表(數據庫)中的記錄總數?
在上述情況(數據庫)中創建多少個DBRecordReaders?
是的,我早前通讀過它,但正在創建的DBRecordReader的數量尚不清楚,請您解釋一下嗎? – 2013-04-27 17:26:42