2009-02-13 95 views
0

我正在構建一個網站,它將是一個開源的,用戶貢獻的內容類型的東西,我認爲如果開發人員能夠訪問夜間生產SQL轉儲,他們更有可能從github檢出代碼並玩它。面向開發人員的開源生產數據?

根據這一思想是一致的,我考慮之一:

  • 一點也不收集私人用戶信息,使用開放ID帳戶和大量使用內存緩存的東西像會話的認證。發佈

有時我得到與忘乎所以

  • 匿名化的敏感數據之前「不會是,如果冷靜......?」想法,所以我希望在這裏進行理智檢查。兩種方法都有明顯的缺陷?這是一個理智的想法?

  • 回答

    2

    一般而言,我認爲你應該兩者兼而有之。您收集的任何私人數據僅僅是您的責任,而不僅僅是因爲您打算髮布數據庫。你收集的越少越好。

    但是,出於同樣的原因,您可能會意識到,它不僅僅是敏感的ID和密碼。記得the AOL search data leak?或者Netflix數據庫出版物?即使沒有ID,people managed to figure out the real identities的某些帳戶,只需將用戶行爲的路徑拼湊起來,並與其他地方的數據相對應即可。有些人對他們的搜索歷史和他們的電影租賃感到尷尬。去搞清楚。

    因此,我認爲一般規則應該是儘可能少收集,並匿名留下的東西。即使您沒有存儲與某個帳戶相對應的人員的身份,也可能需要爭奪各種登錄信息。

    另一方面,有些情況下你根本不在乎這種隱私。例如,在維基百科,無論如何,您在網站上做的所有事情都是公開的。至少,所有的數據都被記錄在數據庫中。如果信息已經可以通過API獲得,那麼將其隱藏在數據庫下載中沒有任何意義。

    +0

    感謝隊友。這是一些好的食物。 – user57995 2009-02-14 01:29:55

    0

    聽起來很不錯。你必須小心的一件事是安全,因爲黑客會知道你的數據庫的確切架構。雖然這不是不可能解決,但只要看看大多數開源項目。但是您需要對安全性加以重視,因爲現在說潛在的SQL注入變得更容易了。

    另一件事是確保敏感數據是匿名的。此外,有些人可能(錯誤地)試圖聲稱他們對用戶提交的內容的版權受到侵犯,因此您可能需要指定CC許可證或其他內容,以使所有內容更加清晰,並防止未來出現問題(即使您無論如何都是正確的)。

    +0

    感謝您的迴應。兩者都很棒,CC許可證是一個好主意。 – user57995 2009-02-13 20:46:04

    +0

    如果它是開源的,黑客無論如何都會知道你的數據庫模式。它可能需要更多的工作。 – 2009-02-13 20:57:39

    1

    除了收集的數據較少匿名你收集的數據,您可以添加一個位/標誌爲用戶選擇他們的數據是否包括或不。您可以將其設置爲CC許可證標誌,在滿足您的需求時爲用戶提供溫馨的服務。