2016-09-18 44 views
0

首先我的道歉,如果這種情況&詢問讀取爲模糊或一般;我將設法是儘可能具體,審議的目前階段:爲高頻率(流媒體)數據創建新數據庫的成本結構

  • 桌面應用程序被設計成用於相互作用(通過流式傳輸的TCP/IP套接字連接)與遠程服務器(與C++ API )提供高頻(某些情況下爲亞秒)數據,每個時間戳具有八個參數/值。四個'產品'的數據將從09:00-17:00ET MF連續訂購,另外26種其他產品的數據格式將在非高峯時段(20:00-21 :00)。
  • 在任何情況下,收到的數據都將保存到運行此桌面應用程序的PC上的一個MySQL表中。數據將在稍後被幾個基本 R和Python腳本查詢分析,爲了便於考慮,這裏僅僅意味着安裝啓用連接的軟件包(pymysql等),除此之外沒有什麼比這更進一步。

  • 隨着時間的推移,每個產品的數據量可能會增長到5-6百萬行(每行包含8個參數的值),因此總計有150-180百萬行。

的問題是:哪些方面建設/實施這樣一個數據庫將是最耗時的一個程序員(複雜性,純粹的,最終的容量職位月薪)?我從最終用戶的角度提出這個問題,他們希望僱用一名程序員,並且收到的報價遠高於1萬美元。它在與程序員的討論中建立,我將主持和維護數據庫,因此成本問題僅限於設計&版本。

+0

我會專注於批量數據採集,其中批次不是最初插入的,而是放置在可重新創建的段中。我還將重點放在最低限度的概念驗證上,以便您選擇合適的解決方案提供商 – Drew

+0

10k美元包含哪些內容?正如你所描述的那樣,對於有多年經驗的人來說,這聽起來很直接。對於實現這個功能的程序員來說,最密集的方面將是@Drew所指的排隊系統。你有很多小的查詢。爲了讓MySQL工作得更快,你需要一次編寫大量的數據。要做到這一點,你排隊幾個查詢,並將它們立即「刷新」到磁盤。您也可以購買快速SSD,並忽略隊列系統,希望磁盤可以應付。這是關於我可以對這個問題做出什麼貢獻的。祝你好運! –

+0

我的口頭禪:「不要排隊,就去做吧。」每秒30個直接插入不成問題。通過隊列餵食他們會是一個問題。 –

回答

0

我的猜測是程序員期望在流設置和一些性能優化期間進行一些額外的通信。

我的估計是:

  • 流分析(通信的PoC) - 3MD
  • 數據分析 - 1MD
  • 項目設置 - 1MD
  • 初始數據庫設置 - 爲2Md
  • 編碼 - 3MD
  • 單元/集成測試 - 2MD
  • 演示運行代碼 - 1MD
  • 性能優化 - 4MD
  • 性能測試 - 爲2Md
  • 工作的代碼演示 - 1MD

所以20MD + 30%=儲備27MD。以美國每天400美元的薪水,你最終會得到10.8萬美元。在歐洲,您可以獲得每天250美元的報價,所以大約在6.5萬美元或7萬美元左右。