搜索實體名稱數據庫（高校，城市，個性，國家......）

對於我和另一個人正在研究的企業應用程序研究項目，我們正在尋找刪除頁面中的某些內容以保留髮布的消息普遍的（意味着不冒犯，基本上是匿名的）。現在我們想告訴用戶已經發布到留言板的消息，並刪除任何類型的名稱，大學或機構的名稱和褻瀆（如果以後可能我們想刪除商家名稱）。搜索實體名稱數據庫（高校，城市，個性，國家......）

是否有一些我們可以連接到的數據庫，我們可以運行scrub消息來檢查數據庫中的值以識別這些數據？

來源

2009-10-08 TheJediCowboy

這個問題似乎意味着一個在線數據庫，它將在消息處理期間被查詢。操作問題（這些服務的可靠性，響應時間的滯後等）以及完整性問題（需要查詢多個數據庫，因爲沒有一個數據庫能夠覆蓋項目100％的詞彙需求）使得這種在線/實時方法不切實際。然而有許多數據庫可供下載，並允許您建立自己的本地數據庫的「熱門話」。

一個很好的開始可能是WordNet，是你很可能使用的所有「實例」字樣的，通常應該需要從消息刪除，因爲有匿名/潔淨他們的話。（也許你還想將「非實例」的單詞保存在單獨的表格/單詞列表中「更可能是好的」）。單單這個列表可能會很好地支持您的應用程序的「0.9」版本。

你最終想要擴展這個詞彙數據庫的「髒話」，然而，例如包括所有縮略語大學（CMU，加州大學聖地亞哥分校，杜，麻省理工學院，UNC和這樣），運動隊名（凱爾特人，熊，熊，紅襪...），並根據你的消息領域，額外的公衆人物名稱（Wordnet有幾個，如喬治布什或羅伯特德尼羅，但它缺少名人或名人最近：如奧巴馬）

爲了補充WORDNET，兩種不同類型的源浮現在腦海中：

個傳統的在線數據庫
本體和通俗分類

的例子是說「城市/州的郵政編碼」在USPS。後者的例子是由學者，組織或各種個人彙編的各種「列表」。這是不可能提供的這兩種來源類型的詳盡名單，但下面應該有所幫助：本體例如本體DAML格式

Open Directory project開源目錄

US Regions and States的

DAML.ORG目錄（注意，得到迅速凌亂）一個的
SourceWatch.org例如「列出的清單：在新聞/政治人」
SEACH引擎關鍵字：「列表列出中「，或者使用三個或四個您期望在您尋找的列表中找到的單詞。

在更簡單的情況下，只能下載列表等，或者也可以「下載並粘貼」。本體會被其他屬性「阻塞」，你將需要解析出來（將來你可能真的需要這些屬性並以更傳統的方式使用本體，現在只需要抓住詞彙實體即可）。

這個詞法數據庫編譯任務看起來令人生畏。但是，規則規定，20％的「熱門詞」將佔到消息中引用的80％，因此只需相對較小的努力，您就能夠生成覆蓋90 ％的用例。

展望未來：超越「熱詞」數據庫
有接近這一任務，使用各種技術和概念從自然語言處理（NLP）的許多方面。隨着項目越來越複雜，您可能想了解其中的一些概念，並可能實施它們。例如，想到一個簡單的POS標記器，因爲它可以幫助（部分地）區分說出令牌「SCREW」的各種用法，因爲您的應用程序會丟棄冒犯性詞語。（「董事會希望螺絲學生」與「董事會應該用最少的4個螺絲每碼被固定」。

甚至需要這些正式的NLP技術之前，你可以使用例如，您可以考慮以下內容：
- （單詞）州立大學
- 參議員（參議員） Word_Starting_with_Capital letter）
- 混合字母和數字的單詞（這些常常用來拼錯名字和規避您的項目希望實施的過濾器類型）

另一個可能有用的工具，特別是在開始階段，將會收集有關郵件語料庫統計信息的系統：詞頻，最常見的詞語，最常見的雙字詞（連續兩個字）等。

來源

2009-10-08 07:33:53 mjv

mjv-Wow謝謝你，這足以讓我走上正軌，我會嘗試一些這些工具！ – TheJediCowboy 2009-10-08 16:40:02

搜索實體名稱數據庫（高校，城市，個性，國家......）

回答

相關問題