用於分佈式監控和跟蹤網絡中的延遲/丟棄的良好設置

我想說一句，我從來沒有參加過網絡課，但我正在學習工作。像TCP/IP網絡這樣的事情我有一個非常基本的把握，如果你認爲這會阻礙我在這方面的嘗試讓我知道。用於分佈式監控和跟蹤網絡中的延遲/丟棄的良好設置

我現在的任務是這樣的：我有一個Open Stack網絡，其中有一堆節點可以相互通信，所有運行CentOS虛擬機（只是爲了簡單起見）都運行在它們之上。這個任務基本上是要找到一種方法來監視每個節點的ping，並且每當某種消息（可能通過http）報告發生的事情時就會報告。檢查實際延遲問題的邏輯並不是我正在努力的，它是完成此任務的最佳結構。

我在想使用Nagios並建立一個分佈式監控系統。基本上我的計劃是在編寫我的插件（除非它已經提供或存在）之後，在每個節點上安裝nagios，並且一旦它的設置和其他節點一旦它加入網絡被檢測到。我不確定這是多麼的可擴展性，因爲如果節點數量增加很多，每個節點都會ping每一個節點實際上是件好事？它實際上最終會給網絡帶來很大的壓力嗎？

這是一個壞主意嗎？我知道只要檢查每個節點（不一定必須讓每個節點都連接到每個其他節點）效率更高，那麼更有效的解決方案就是這樣。將它視爲具有幾個點的圖形，它將是一個雙向圖，只有一條路徑連接每個點，而不是每個可能的點之間都有邊。但我不知道這是不是我應該考慮的水平。

總之，我問的是：如何在一堆Open Stack節點之間建立一個ping監控系統？

讓我知道這個問題是否有意義。謝謝。

來源

2016-11-22 frei

這聽起來像一團糟。有些東西像NetFlow和IP SLA來監視網絡上的事情。順便說一下，ping只能測量ICMP的延遲，並且與真實的網絡流量無關。 –

沒關係，但這些都是我想檢查之間的延遲的虛擬機，所以沒有任何物理路由器。也有類似「平」的工具，基本上衡量同樣的事情嗎？像fping或tcping等等，爲什麼你不會在這種情況下跟隨nagios？ – frei

NetFlow和IP SLA有各種實現。您的VM之間的網絡仍在使用第2層和第3層網絡，您可以使用這些工具來衡量實際流量。這正是這些工具的設計原因。你只是試圖重新發明輪子。 –

-1

仍然不完全確定你想用這個設置完成什麼，但是你描述的Nagios設置聽起來很亂，可能不會涵蓋你需要的東西。我會考慮在每臺主機的配置中創建packetbeat，然後將這些數據發送給Elasticsearch。這樣您就可以觀察實際的應用程序級流量和響應時間。 https://www.elastic.co/products/beats/packetbeat

來源

2016-11-22 18:05:46

以及這個問題已經更清楚了。我並不太在乎網絡流量，因爲我只關心檢查節點之間的延遲。基本上，如果有一個問題（有人抱怨網絡很慢），我只需要一種方法來確定問題是在他們的終端還是我們的問題上，在這種情況下，從其他地方ping問題節點或者在某種情況下/秒，跟蹤這些ping是好的。我可能會有一個集中的主機保存日誌。我不必處理應用程序層 – frei

用於分佈式監控和跟蹤網絡中的延遲/丟棄的良好設置

回答

相關問題