2010-06-26 88 views
3

我正在開發一個論壇網站的功能,該功能允許在帖子中包含鏈接和其他類型的內容(用於說明問題或答案)。按相關性排序圖像的算法

相關的鏈接功能實現,我有幾個事情上工作:

  1. 驗證URI輸入(以及形成有效的方案等)
  2. 驗證遠程資源存在
  3. 顯示給用戶的圖像集,並讓遠程頁面內
  4. 提取圖像他選一個

挑戰。在第4步之前,按照'相關性'的順序對這組圖像進行排序會很好。我知道這是一個非常模糊的目標:-)但是我可以解釋我已經完成了第4步中給出的結果,並且您將知道我爲什麼要處理此解決方案。

很多時候,我得到這樣的事情到組圖像:用於頁面佈局(微小和無用的)

  • 橫幅和廣告
  • 僞重複

    • 圖片圖像(原件及調整之一)
    • 設定的無政府主義順序(在最後一個位置標誌等)

    我決定CLE一個這樣的混亂去除微小的圖像和按大小排序,但我知道這將是一個很好的解決方案。

    任何想法?

    非常感謝!

  • +0

    這聽起來像是一個很大的挑戰,設計這個算法將是很多努力的工作,但最好是在一個非常好的佈局中顯示圖像。可縮放縮略圖的可滾動面板,從頁面頂部到底部。除了過濾您猜測的小尺寸/廣告尺寸圖片之外,任何事情都可能會經常出錯。我知道這不是一個答案,但它值得考慮,它可能會解決原來的問題(我猜想找到相關的圖像:留給用戶!):) – 2010-06-26 17:17:32

    +0

    問題是,你將如何確定圖像的相關性?這只是一個訓練有素的人工智能可以完成的工作,人類..你可以做的最好的辦法就是刪除無關圖像,比如你說過的,微小的圖像等等,無論如何,臉譜有這種功能,除了我認爲的那種相關部分... – ultrajohn 2010-06-26 17:21:39

    +0

    你可以嘗試檢查它們的文件名...我認爲現在並不少見,圖像通常用描述其內容的東西命名...... – ultrajohn 2010-06-26 17:27:54

    回答

    2

    您可以根據飽和度進行分類(這可以很好地指示圖像的有趣程度),請參閱sample implementation的問題「Image Classification - Detecting Floor Plans」。

    最困難的事情是從正規圖像分離圖片廣告(因爲它們被設計看起來非常有趣的),要做到這一點,我建議以下可能的解決方案的一種或多種:

    • 忽略的圖像,具有標準尺寸的廣告
    • 查詢網頁兩次,並忽略更改的圖像(廣告傾向於動態)
    • 忽略託管在外部網站上的圖像(注意CDN!)或特定的廣告投放網址

    爲了克服你可以將它們全部調整到一個非常低的分辨率(如8×8或4×4),如果兩個或更多的圖像是一樣的忽視小分辨率複製圖像的問題(呃)一個。

    +0

    非常感謝您的回覆。這是一個非常聰明的解決方案。當我面對解決這個問題時,我會記住。 – 2010-06-29 12:10:19

    0

    您可能還想按圖片的託管位置對圖片進行排序 - 首先是現場託管的圖片,第二是非現場圖片。現在大多數廣告圖像都來自第三方服務器,因此本地圖像通常是更相關的圖像。