在兩個JSON文件中查找匹配記錄的最佳方法

我有兩個JSON文件 - 包含發佈者和書籍列表的發佈者，其中包含書籍列表。我必須將本書與相應的出版商進行匹配。這兩個文件是格式如下：在兩個JSON文件中查找匹配記錄的最佳方法

books.json（約400書籍）：

[{"bookId":"1173828", "bookName":"Dark Sky", "publisher":"ABC", "publisherCountry":"USA"}, ...]

publishers.json（約10出版商）;

[{"publisherId":"128", "publisherName":"ABC", "publisherCountry":"USA"}, ...]

輸出應該是這樣的形式：

{"results": [{ "bookId": "1173828", "publisherId": 128}, ...]}

我使用JSON傑克遜解析的文件。我想知道什麼是最好的方法來使用這個問題。我應該爲每條記錄創建單獨的對象，然後比較Book和Publisher類的對象以找到匹配項？

來源

2016-08-20 Lalit Agarwal

如果這是你對數據解決只有問題，最快的方法是：

解析所有的出版商，並存儲ID（或任何其他附加信息，你想以保持輸出）在散列映射中，其中發佈者名稱是關鍵字。如果要匹配姓名和國家/地區，則可以使用<publisherName>/<publisherCountry>這樣的密鑰，如果您自然使用的分隔符不會在數據中出現，則效果最佳。例如<publisherName>\n<publisherCountry>，因爲我認爲這些名稱中存在換行符。
現在解析所有書籍，從數據構造密鑰，例如，再次<publisher>\n<publisherCountry>，並查看你的散列。現在您可以按照您需要的方式輸出所有字段。

來源

2016-08-20 13:20:30 ypnos

你基本上做一個內部聯接基礎上，發佈者名稱圖書，而出版商之間。您可以使用關聯數組（或散列圖）爲發佈者和書籍創建索引。這會將一個唯一的關鍵字（比如出版商名稱）與每個出版商和書籍關聯起來。索引創建完成後，您可以通過遍歷鍵和合並數據來完成do之間的內部聯接。

這裏是用Python的範例：

import json 

with open('books.json') as f: 
    books = json.load(f) 

with open('publishers.json') as f: 
    publishers = json.load(f) 

books_index = { # 1 
    b['publisher']: { # 2 
     'bookId': b['bookId'], 
     'bookName': b['bookName'] 
    } 
    for b in books 
} 
publishers_index = { 
    p['publisherName']: { # 2 
     'publisherId': p['publisherId'], 
     'publisherName': p['publisherName'], 
     'publisherCountry': p['publisherCountry'] 
    } 
    for p in publishers 
} 

joined = [ 
    dict(books_index[k], **publishers_index[k]) # 3 
    for k in books_index.keys() 
] 

results = { 
    'results': joined 
}

注：

這種語法稱爲理解，你可以用它來簡單地在一個表達式創建包含HashMap或列表。 Python的hashmaps被稱爲字典。
這是您爲每本圖書/出版商選擇唯一密鑰的位置，以及相關的值。
這是您選擇如何將書籍與發佈者相關聯的地方。在這裏，我只是將本書和出版商的詞典合併爲一本。

來源

2016-08-20 13:48:38 kjaquier

在兩個JSON文件中查找匹配記錄的最佳方法

回答

相關問題