2009-01-06 180 views
2

我正在考慮編寫一個PHP腳本來分析CMS的頁面內容(即數據庫字段),然後自動生成(X)HTML META描述&關鍵字標記,但是一如既往有沒有重新發明輪子,所以我想知道如果有人知道這樣一個獸人?在PHP中自動生成META標記

前者我想象的是一個相對簡單的正則表達式來抓取第一個或第二個句子,而後者可能會涉及到消除常用單詞詞典中的單詞,然後對頻率或類似詞彙進行加權。

回答

5

您正在考慮的問題有兩個:關鍵字提取和文檔摘要之一。第一種,我明顯用於關鍵字的方法有一種非常簡單的樸素方法:挑選內容中最頻繁的單詞,減去所有停用詞(如果您不知道這些詞是什麼,請在維基百科中查看)。還有很多更高級的方法,包括加入同義詞的權重,文本中的位置或標記等等。在PHP中有幾個簡單的關鍵字提取腳本示例,您可以毫不費力地執行這些腳本。只需Google搜索「PHP關鍵字提取」之類的東西,就可以找到一些。

另一方面,第二個問題有點難度,仍然是很多學術工作的來源。您需要彙總一個非常全面的元描述標籤。如果你不想尋找一個可能仍然僵化或不連貫的長期人工智能項目,實際上可能不值得花時間。另一種方法是使用關鍵詞提取的啓發式方法:「這篇文章是關於(第一常見關鍵詞),(第二常見關鍵詞)和(第三常見關鍵詞)」。您至少可以從關鍵字和描述中獲得適合某些內容的好處。如果您想要改變它,請改用一些同義詞。有一個半功能PHP implementation of WordNet,但我建議外包給Natural Language Toolkit for Python,因爲大部分工作已經完成。

我想花點時間鼓勵您在這方面的研究,並忽略Warnica先生的反饋。元信息對於搜索領域中的文檔分類和信息提取都是重要的。如果沒有這些數據,這將是愚蠢的,事實上,這對於大規模內容管理系統的自動化是值得的。祝你好運。

+0

感謝您的周到回答,並深入瞭解我來自哪裏。我給你投了+1,但奇怪的是其他人似乎做了相反的事情--Warnica先生也許? – da5id 2009-01-06 03:46:35

0

雅虎管道Term Extractor模塊做了類似於你想要的東西。不幸的是,我不知道管道模塊的來源正在被打開。