2008-09-19 93 views
3

我試圖抓取兩個獨立的農場,但無法讓它在任何一個上運行。他們都具有兩個WFE,並將其他WFE配置爲索引服務器。還有一臺專用於查詢的服務器和兩臺用於數據庫的集羣SQL 2005後端服務器。我沒有成功嘗試過至少50個不同的網站,我通過搜索引擎找到了解決方案。我已配置(擴展)我的Web App,以將http://servername:12345用作默認區域,將http://abc.companyname.com用作自定義和Intranet區域。當我進入每個那些到內容源,然後再嘗試運行爬,我得到的爬網日誌幾個錯誤:MOSS 2007爬行

http://servername:12345回報:
「無法連接到服務器請確認網站是可訪問的。「

http://abc.companyname.com回報:
「由採集刪除(起始地址或包含此項目已被刪除,因此該項目被刪除的內容源。)。」

不過,我可以單擊這兩個網址和頁面是可訪問的。

任何想法?


更多信息:

我兩訖,可以這麼說,跑到另一抓取提供更新的樣本。

我的內容來源是這樣:

http://servername:33333
http://sharepoint.portal.fake.com
SPS3://服務器名稱:33333

我現在爬網日誌錯誤是:

SPS3://服務器名稱:33333
PortalCrawl Web服務中的錯誤。

此URL

http://servername:33333/mysites
內容是由服務器,因爲沒有一個索引屬性排除。

http://servername:33333/mysites
抓取

STS3://服務器:33333/contentdbid = {62a647a ...
抓取

STS3://服務器:33333

http://servername:33333
爬行

http://sharepoint.portal.fake.com
爬取程序無法與服務器通信。檢查服務器是否可用並且防火牆訪問配置是否正確。

我仔細檢查了上面的錯別字,我沒有看到任何,所以這應該是一個準確的反映。

回答

4

要記住的一件事是,爬網SharePoint網站與爬網文件共享或非SharePoint網站不同。

其他一些簡單的指針:

  • 的SPS3:協議是爬行用戶配置文件用於人員搜索。您可以忽略抓取工具提到的任何內容,直到您準備好了用戶配置文件。
  • 您的抓取帳戶應該可以訪問您的整個農場。如果您看到權限錯誤,請查找KB文章,該文章告訴您如何重置爬網帳戶(這是特定的stsadm.exe命令)。如果您嘗試抓取其他農場的內容,那麼您需要另外做一些工作才能爲您的抓取帳戶授予訪問權限。我認爲這是你目前最大的問題。
  • 爬網程序(從索引服務器運行)將嘗試訪問公共URL。我之前有過服務器間通信問題;確保所有三臺服務器都可以互相ping通,並確保索引服務器可以訪問公共URL(打開索引服務器上的IE並檢查它)。如果你有問題,是時候把你的索引服務器的hosts文件弄髒了。無論如何,這是SharePoint爲你做的事情,所以不要覺得這樣做太糟糕。如果您已經設置了集成Windows身份驗證以外的任何設置,則必須更加努力才能使抓取工具正常工作。

無論如何,回覆中有很多來回,所以我只是在那裏尋找一堆建議,也許其中一個是針對目標的。

0

在「服務器上的服務」部分,檢查搜索爬網帳戶的屬性,確保它已設置,並且有權訪問這些網站。

1

我對您的服務器場拓撲有點困惑。作爲WFE安裝的機器不能成爲索引器。安裝爲「完整」的計算機可以是索引器,查詢和/或任意數量的計算機...

此外,您可能希望添加爬網規則,而不是更改默認內容訪問帳戶並運行)

你能看到有用的東西是否在你的索引器上的%commonprogramfiles%/ microsoft shared/web server extensions/12/logs?

日誌文件可能有點冗長,你可以搜索「開始」或「完整」,這通常會讓你到你的爬行開始日誌中的行。

另外,在您的sql機器上,您可能能夠從MSScrawlurlhistory表中獲取更多信息。

1

你能爲http://www.cnn.com創建一個內容源並開始一個完整爬網了麼?你有同樣的錯誤嗎?

此外,我們可能想要脫機,讓我知道如果你想這樣做。

我不確定是否有辦法通過stackoverflow發送私人消息。

0

感謝您的新輸入!

所以我從我的週末回來,我想通過你的指針,嘗試每一個,然後報告他們如何不工作,然後發佈我得到的結果。不過,有趣的事情發生了。

我去了我的索引器(servername5),我嘗試從Internet Explorer連接到Central Admin和主門戶。都沒有工作。所以我進入了Indexer的IIS,嘗試從IIS內部瀏覽主門戶。這也沒有奏效,我收到一個錯誤,告訴我其他人正在使用該端口。所以我從以前的版本中看到了我的舊網站,並將其從相應的應用程序池中從IIS中刪除。然後,我從新版本開始爲該網站開發App Pool並瀏覽網站。成功。然後我從自己的PC上的瀏覽器瀏覽網站。再次成功。再次

http://sharepoint.portal.fake.com

成功:然後我跑了爬行通過完整的URL,而不是服務器名稱,像這樣。它像我想要的那樣爬滿整個門戶網站,包括子網站。 「索引中的項目」很快就被填充了,我可以說我在滾動。

我仍然無法從servername5訪問servername4上託管的中央管理站點。我不確定爲什麼不行,但我不知道在這一點上它很重要。

這是什麼給我留下的?什麼是修復?

我還不確定。也許這是重建。也許只要我重建了服務器場,我就擁有了所有我需要的工具,但它不能工作,因爲之前的網站仍然在IIS中。 (有趣的是,卸載SharePoint可能會有多鬆散,手動刪除內容數據庫,網站和應用程序池似乎是必要的,而且可能不應該如此)。

無論如何,它現在正在運行我的「測試」農場,所以關鍵是讓它在生產農場上工作。我希望在這個經歷之後它不會如此困難。

感謝大家的幫助!

1

你的大部分問題都與Kerberos有關,聽起來像。如果您沒有應用基礎架構更新,則Sharepoint將無法使用kerberos身份驗證來訪問具有非默認(80/443)端口的網站。這也是爲什麼(我敢打賭),當服務器4位於服務器4上時,您無法從服務器5訪問CA.如果您沒有正確設置SPN,則只能從安裝它的機器訪問CA.如果您已經使用端口80安裝Sharepoint作爲默認網址,那麼您將可以毫無困難地執行本地共享點爬網。但通過設計,本地SharePoint站點爬網使用默認的URL訪問SharePoint站點。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry瞭解更多關於如何讓Kerberos & Sharepoint在一起工作的更多細節。