請原諒我的初學者問題 - 我是R新手,在統計數據上相當不合理。通過響應頻率降低交叉表大小
我有一個簡單的應變表,它表示每個用戶在一段時間內收集的一組網頁的查詢數量。總共有大約15,000個觀測值。這適用於大約100個用戶查看50組頁面的表格。
由於50x100矩陣難以直觀顯示,我想提出一個按最大聚合排序的表的子集 - 無論是列(頁組)還是行(用戶),或者甚至是最大的行 - 列數。例如,我可能會選擇前20位用戶和前10位組,或者前99%的行數。
理想情況下,我最終得到的表格仍然代表了最具代表性的用戶與頁面組之間的主要交互。
這是一個合理的方法嗎?我會失去一些大量的統計意義;而且,有沒有辦法比較前後的意義。
我必須承認,我仍然不知道如何根據兩個因素對錶格進行排序和子集,而不是逐行操縱。
查看[stats.se](http://stats.stackexchange.com/faq)網站 - 您的問題可能更適合。如果你這麼認爲,請舉出你的問題,並請主持人爲你轉移它。 – sarnold 2012-03-02 02:24:49
(哦,等等,標記需要比目前更多的積分 - 只需在評論中回覆'@ sarnold',如果你願意的話,我會很高興地爲你效力。) – sarnold 2012-03-02 02:27:58
看起來像一個完美的R - 可計算的問題。缺少的是產生示例問題的代碼。 – 2012-03-02 03:02:51