我正在構建一個網站,它將是一個開源的,用戶貢獻的內容類型的東西,我認爲如果開發人員能夠訪問夜間生產SQL轉儲,他們更有可能從github檢出代碼並玩它。面向開發人員的開源生產數據?
根據這一思想是一致的,我考慮之一:
- 一點也不收集私人用戶信息,使用開放ID帳戶和大量使用內存緩存的東西像會話的認證。發佈
有時我得到與忘乎所以
我正在構建一個網站,它將是一個開源的,用戶貢獻的內容類型的東西,我認爲如果開發人員能夠訪問夜間生產SQL轉儲,他們更有可能從github檢出代碼並玩它。面向開發人員的開源生產數據?
根據這一思想是一致的,我考慮之一:
有時我得到與忘乎所以
一般而言,我認爲你應該兩者兼而有之。您收集的任何私人數據僅僅是您的責任,而不僅僅是因爲您打算髮布數據庫。你收集的越少越好。
但是,出於同樣的原因,您可能會意識到,它不僅僅是敏感的ID和密碼。記得the AOL search data leak?或者Netflix數據庫出版物?即使沒有ID,people managed to figure out the real identities的某些帳戶,只需將用戶行爲的路徑拼湊起來,並與其他地方的數據相對應即可。有些人對他們的搜索歷史和他們的電影租賃感到尷尬。去搞清楚。
因此,我認爲一般規則應該是儘可能少收集,並匿名留下的東西。即使您沒有存儲與某個帳戶相對應的人員的身份,也可能需要爭奪各種登錄信息。
另一方面,有些情況下你根本不在乎這種隱私。例如,在維基百科,無論如何,您在網站上做的所有事情都是公開的。至少,所有的數據都被記錄在數據庫中。如果信息已經可以通過API獲得,那麼將其隱藏在數據庫下載中沒有任何意義。
聽起來很不錯。你必須小心的一件事是安全,因爲黑客會知道你的數據庫的確切架構。雖然這不是不可能解決,但只要看看大多數開源項目。但是您需要對安全性加以重視,因爲現在說潛在的SQL注入變得更容易了。
另一件事是確保敏感數據是匿名的。此外,有些人可能(錯誤地)試圖聲稱他們對用戶提交的內容的版權受到侵犯,因此您可能需要指定CC許可證或其他內容,以使所有內容更加清晰,並防止未來出現問題(即使您無論如何都是正確的)。
感謝您的迴應。兩者都很棒,CC許可證是一個好主意。 – user57995 2009-02-13 20:46:04
如果它是開源的,黑客無論如何都會知道你的數據庫模式。它可能需要更多的工作。 – 2009-02-13 20:57:39
除了收集的數據較少和匿名你收集的數據,您可以添加一個位/標誌爲用戶選擇他們的數據是否包括或不。您可以將其設置爲CC許可證標誌,在滿足您的需求時爲用戶提供溫馨的服務。
感謝隊友。這是一些好的食物。 – user57995 2009-02-14 01:29:55