2010-07-17 105 views
-2

我想捕獲「聯繫我們」頁面上給出的地址。有沒有PHP腳本這樣做?獲取任何網站的「聯繫我們」頁面的地址

我很驚訝,因爲它。我的客戶希望存儲在「聯繫我們」頁面上給出的網站地址。我能夠從頁面獲取內容。但是我很困惑如何從這個頁面獲取地址。

例如:www.abc.com/contactus
包含

辦公地址:

  • X路
  • X市
  • 銷XXXXX
  • X國

我怎樣才能得到這個地址?

+5

-1爲「儘快」。向那些志願花時間解決問題的人提出這樣的要求是無禮的。沒有人會故意讓你等待答案。 – 2010-07-17 10:19:25

+1

@Frank這可能不是粗魯的意思,但這是一件好事。施放憐憫upvote。 :) – 2010-07-17 10:20:57

+0

由於Waqar編輯他的文章,我已經刪除了我的-1。 – 2010-07-17 12:30:26

回答

0

您將不得不使用字符串操作技術從頁面的整個內容中提取所需的字符串。

所以當你說你可以從內容聯繫我們頁面獲取內容。將這些內容存儲在一個字符串中查找該字符串中的模式,以查看如何組織地址並使用php中可用的一些字符串方法剪切該字符串。

17

如果你想要我的2美分:忘記它。

解析出任意模式的地址是巨大的複雜的任務。

的計算機算法和模式檢測頂尖專家組成的小組或許能夠爲您提供合理的結果 - 像那種球隊,可能對谷歌地圖的工作 - 但將是一個準備自制的PHP腳本可以用任何有用的成功率來做到這一點。

忘掉它吧,專注於構建一個手動存儲地址的界面,非常非常簡單。

1
  1. 你不能得到任何(即所有)與我們聯繫網頁,他們中的每一個都是不同的地址 - 無圖案匹配的數量將涵蓋所有的變體,編碼,數據格式等
  2. 在倫理,這是有點(非常)灰色地帶 - 我很放心沒有確定的火災方式來做到這一點。
2

對我來說,聽起來好像你想讓這些地址用一些東西來發送垃圾郵件。我認爲這就是爲什麼許多頁面將它們的地址存儲在圖像中的原因。所以在這種情況下,這是不可能的。

對從每個頁面提取地址的腳本進行編碼(這是不可能的),需要花費更多時間來手動複製粘貼數千個地址。

如果這些千人不夠,它甚至看起來像你要發送垃圾郵件(這是在大多數議員是非法的)。

3

購買垃圾郵件經紀人地址列表將會非常便宜。你的客戶的請求是不現實的。

3

我建議使用Amazon Mechanical Turk進行此操作。只需幾美分(我已經看到每10個站點0.02美元的產品),你可以讓人們爲你做這個。當然,您仍然需要編寫MTurk任務和一些交叉驗證代碼......但與字符串解析噸站點相比,這是一項相當簡單的任務。

只是我的$ 0.02

相關問題