2009-10-08 81 views
2

對於我和另一個人正在研究的企業應用程序研究項目,我們正在尋找刪除頁面中的某些內容以保留髮布的消息普遍的(意味着不冒犯,基本上是匿名的)。現在我們想告訴用戶已經發布到留言板的消息,並刪除任何類型的名稱,大學或機構的名稱和褻瀆(如果以後可能我們想刪除商家名稱)。搜索實體名稱數據庫(高校,城市,個性,國家......)

是否有一些我們可以連接到的數據庫,我們可以運行scrub消息來檢查數據庫中的值以識別這些數據?

回答

7

這個問題似乎意味着一個在線數據庫,它將在消息處理期間被查詢。操作問題(這些服務的可靠性,響應時間的滯後等)以及完整性問題(需要查詢多個數據庫,因爲沒有一個數據庫能夠覆蓋項目100%的詞彙需求)使得這種在線/實時方法不切實際。然而有許多數據庫可供下載,並允許您建立自己的本地數據庫的「熱門話」。

一個很好的開始可能是WordNet,是你很可能使用的所有「實例」字樣的,通常應該需要從消息刪除,因爲有匿名/潔淨他們的話。 (也許你還想將「非實例」的單詞保存在單獨的表格/單詞列表中「更可能是好的」)。單單這個列表可能會很好地支持您的應用程序的「0.9」版本。

你最終想要擴展這個詞彙數據庫的「髒話」,然而,例如包括所有縮略語大學(CMU,加州大學聖地亞哥分校,杜,麻省理工學院,UNC和這樣),運動隊名(凱爾特人,熊,熊,紅襪...),並根據你的消息領域,額外的公衆人物名稱(Wordnet有幾個,如喬治布什或羅伯特德尼羅,但它缺少名人或名人最近:如奧巴馬)

爲了補充WORDNET,兩種不同類型的源浮現在腦海中:

  • 個傳統的在線數據庫
  • 本體和通俗分類
  • 前的

的例子是說「城市/州的郵政編碼」在USPS。後者的例子是由學者,組織或各種個人彙編的各種「列表」。這是不可能提供的這兩種來源類型的詳盡名單,但下面應該有所幫助:本體例如本體DAML格式

  • Open Directory project開源目錄
  • US Regions and States

    • DAML.ORG目錄(注意,得到迅速凌亂)一個的
    • SourceWatch.org例如「列出的清單:在新聞/政治人」
    • SEACH引擎關鍵字:「列表列出中「,或者使用三個或四個您期望在您尋找的列表中找到的單詞。

    在更簡單的情況下,只能下載列表等,或者也可以「下載並粘貼」。本體會被其他屬性「阻塞」,你將需要解析出來(將來你可能真的需要這些屬性並以更傳統的方式使用本體,現在只需要抓住詞彙實體即可)。

    這個詞法數據庫編譯任務看起來令人生畏。但是,規則規定,20%的「熱門詞」將佔到消息中引用的80%,因此只需相對較小的努力,您就能夠生成覆蓋90 %的用例。

    展望未來:超越「熱詞」數據庫
    有接近這一任務,使用各種技術和概念從自然語言處理(NLP)的許多方面。隨着項目越來越複雜,您可能想了解其中的一些概念,並可能實施它們。例如,想到一個簡單的POS標記器,因爲它可以幫助(部分地)區分說出令牌「SCREW」的各種用法,因爲您的應用程序會丟棄冒犯性詞語。 (「董事會希望螺絲學生」與「董事會應該用最少的4個螺絲每碼被固定」。

    甚至需要這些正式的NLP技術之前,你可以使用例如,您可以考慮以下內容:
    - (單詞)州立大學
    - 參議員(參議員) Word_Starting_with_Capital letter)
    - 混合字母和數字的單詞(這些常常用來拼錯名字和規避您的項目希望實施的過濾器類型)

    另一個可能有用的工具,特別是在開始階段,將會收集有關郵件語料庫統計信息的系統:詞頻,最常見的詞語,最常見的雙字詞(連續兩個字)等。

  • +0

    mjv-Wow謝謝你,這足以讓我走上正軌,我會嘗試一些這些工具! – TheJediCowboy 2009-10-08 16:40:02