我試圖讓標題更清晰,但它確實需要更多的措辭。將字符串列表追加到另一個列表中的字符串
我需要做的事:
我有一個URL列表。在每個URL(實際網站)中,都包含HTML中包含的文件名。我已經抓取了一個網站來獲取每個URL的列表以及包含在每個URL中的所有文件名的另一個列表,並且所有文件名都在同一個列表中。
我需要將每個URL中每個文件的名稱追加到它們各自的頁面(位於文件名的前面的URL)。
清單的實施例:
list1 = ['www.something.com/a/','www.something.com/b/','www.something.com/c/']
list2 = ['adam.html','addison.html','bob.html','boris.html','claire.html','clarence.html']
的URL的結構是按字母順序排列,並且每個文件名與相應的字母開頭。
例如:我想採取www.something.com/a/
並追加所有文件名到創建完整URL列表(及其文件名),如www.something.com/a/adam.html
,www.something.com/a/addison.html
。
/a/
步驟完成後,將循環移動到www.something.com/b/
並追加b
文件名一樣www.something.com/b/bob
,www.something.com/b/boris
我想了一會兒。顯然,第一個障礙是我組合的列表長短不一。此外,我目前沒有由他們的前面/主頁URL分隔的文件名列表。我想也許我可以將它們循環成一個字典或數組,其中鍵是字母或家庭URL,但我不確定這是如何完成的,因爲我對這些都很陌生。
編輯添加代碼:
def get_top_urls(letters):
top_url_list = []
for letter in letters:
top_url_list.append("http://www.basketball-reference.com/players/%s" % letter)`
player_urls = []
for i in top_url_list:
result = re.findall("\/([a-z]+[0-9][0-9]\W[a-z]+)", str(urlopen(i).read()))
player_urls.append(result)
return player_urls
#for i in top_url_list:
if __name__ == '__main__':
main()
這是top_urls
和player_urls
我需要追加到彼此得到我最終需要的所有URL列表。 任何人都可以幫助我嗎?
你能寫兩個列表的樣本嗎? –
有什麼困難?看起來像一個簡單的任務在Python中 - 你有什麼問題,你有什麼嘗試? – AChampion
如果您需要幫助,請提供您嘗試過的一些代碼。 SO不是代碼寫入服務。 – Munir