我正在創建一個應用程序,該應用程序正在從舊的問題論文中創建問題的數據庫。我想保留一張表格,將相似的問題連在一起插入。 (我想到的表是修改的預定義遍歷樹)。在考試試卷中鏈接類似的總和/問題
我的要求是:
- 與改變數字題應該連在一起
- 與專有名詞/名被不同的應連在一起Word中的問題。
- XYZ,ABC,PQR,MNO是等效的(例如三角形命名法)
- 忽略標點和連詞以及'小詞'。
- 標籤!我用它的主題標記每個問題。數學問題與歷史問題類似的可能性很少。但化學熱力學問題可能類似於物理熱力學問題。
任何有關如何繼續進行算法方面的事情將非常感激。
另外我會處理包含數學符號的圖像。我是否應該確保我的所有圖像在'ALT'屬性中都有LaTeX,以確保它們可以通過此算法處理,或者有更好的方法來實現它?
+1」你也可能想把所有的數字或白名單的專名變成佔位符(「數字」,「名字」等)和指向simhashing :) – Angad 2012-07-20 16:40:48
這可能讓我完全聽起來白癡,但它值得一試。我可以使用Jaro-Winkler距離比較這些哈希值以找到類似的哈希值嗎?效率似乎是一個很大的問題,正如http://dannykopping.com/blog/fuzzy-text-search-mysql-jaro-winkler 中指出的那樣,我想我必須添加一些索引來簡化流水線哈希匹配。但是我覺得我現在似乎得到它:) – Angad 2012-07-20 17:28:39
你可以使用一個加權哈羅 - 溫克勒判斷simhash距離。問題是,哈希「0af」應被視爲接近「0bf」比「0FF」,儘管都是由一個字符被關閉; JW會認爲這些是等距的(如果我正確地閱讀它的話)。通過將哈希保持爲字符「0」和「1」的文本字符串,可以跳舞,在這種情況下,JW降低到漢明距離。不過,我仍然建議只是在simhashes上保留索引/排序表並使用二分查找來堅持。 – phs 2012-07-20 23:04:09