2017-07-27 76 views
0

我必須粘貼3000網址一天是格式化能Python中的「字符添加到字符串

我可以設置密碼,以原始粘貼數據轉換爲字符串?

(例原始數據) - 13邁克爾路Cottees NSW 2017

(實施例的變化的數據) - 「13邁克爾路Cottees NSW 2017」

我試圖

RAW_URL = 13 Michael Way Cottees NSW 2017 + " " 
RAW_URL = str(13 HOADLEY ST MAWSON ACT 2607) 
RAW_DATA = ' " ' + (13 HOADLEY ST MAWSON ACT 2607) + ' " ' 

我不斷收到「無效的語法」錯誤,並沒有太多運氣與谷歌。

一旦完成,將摺疊成下面的代碼,就PASTED_CRM_DATA單個輸入替換到列表中僅低於

import requests 
import csv 
from lxml import html 
import time 
import sys 

text2search = '''RECENTLY SOLD''' 


PASTED_CRM_DATA = "13 HOADLEY ST MAWSON ACT 2607" 
URL_LIST = 'https://www.realestate.com.au/property/' + str(PASTED_CRM_DATA.replace(' ', '-').lower()), 


with open('REA.csv', 'wb') as csv_file: 
    writer = csv.writer(csv_file) 

    for index, url in enumerate(URL_LIST): 
     page = requests.get(url) 
     print '\r' 'Scraping URL ' + str(index+1) + ' of ' + str(len(URL_LIST))+ ' ' + url, 


     if text2search in page.text: 
      tree = html.fromstring(page.content) 

      (title,) = (x.text_content() for x in tree.xpath('//title')) 
      (price,) = (x.text_content() for x in tree.xpath('//div[@class="property-value__price"]')) 
      (sold,) = (x.text_content().strip() for x in tree.xpath('//p[@class="property-value__agent"]')) 
      writer.writerow([title, price, sold]) 

任何輸入讚賞

回答

0

首先,你應該明白什麼strings在Python

在你的例子,你已經嘗試

RAW_URL = 13 Michael Way Cottees NSW 2017 + " " 
RAW_URL = str(13 HOADLEY ST MAWSON ACT 2607) 
RAW_DATA = ' " ' + (13 HOADLEY ST MAWSON ACT 2607) + ' " ' 

這裏您嘗試使用字符串的字符被解釋爲實際代碼。爲了讓你的意圖清楚,口譯員在他們周圍使用單引號'。 (或雙引號)

RAW_URL = '13 Micheal Way Cottees NSW 2017' 
RAW_DATA = '13 HOADLEY SY MAWSON ACT 2607' 

申請報價請使用字符串concatanation

RAW_URL = '"' + '13 Micheal Way Cottees NSW 2017' + '"' 

艱難林不知道你的意思是與原始粘貼數據是什麼。數據從哪裏複製而來?是手工還是在程序中完成?

+0

我每天都得到一個excel文件,這是一個街道地址。他們都是一模一樣的 13霍德利ST MAWSON ACT 2607 >>> 14薩弗裏ST加蘭ACT 2605 >>> 202 41 CHANDLER ST貝爾科ACT 2617 – James2086

+0

你還在用手工複製數據? (如複製+粘貼鼠標)。你可以改進代碼來逐行讀取excel文件,並以這種方式執行網頁抓取。 –

+0

數據是手工複製的,因爲數據來自Excel表格,這是一個基於Web的提取,並且不能在python中識別。 – James2086