我需要幫助制定在我的腳本新的代碼讀取通過文件報廢,如果有文件名的任何重複(不是文件類型),然後從目錄中刪除重複的文件名。提前致謝!這裏是我當前的代碼:如何擺脫使用python
from bs4 import BeautifulSoup
import urllib.request
import os
url = urllib.request.urlopen("https://www.fhfa.gov/DataTools/Downloads/Pages/House-Price-Index-Datasets.aspx#mpo")
soup = BeautifulSoup(url, from_encoding=url.info().get_param('charset'))
FHFA = os.chdir('C:/US_Census/Directory')
for link in soup.find_all('a', href=True):
href = link.get('href')
if not any(href.endswith(x) for x in ['.csv', '.xml', '.xls', '.xlsx', '.sql', '.txt', '.json']):
continue
filename = href.split('/')[-1]
url = urllib.request.urlretrieve('https://www.fhfa.gov/' + href, filename)
print(filename)
print(' ')
print("All files successfully downloaded.")
您可以包括你現在做了什麼輸出以前的文件的
set
,和你想要的輸出。 –我很難理解你想要做什麼以及你有什麼問題。輸入和預期輸出的例子會有所幫助。 – MrJLP