36. 某電商資料團隊要協助行銷部門規劃再行銷策略。目前取得資料包含使用者點擊、購買紀錄、流量來源與轉換率。若資料團隊希望先進行探索性資料分析(EDA),下列哪一項最符合 EDA 的做法?
(A)建立隨機森林模型,預測使用者是否會完成購買;
(B)使用 K-means 對使用者群進行分群並立即制定對應促銷策略;
(C)繪製各類流量來源對轉換率的關聯圖,尋找潛在關係;
(D)對不同購物路徑設定統計假設並進行雙樣本 t 檢定
統計: A(9), B(32), C(49), D(6), E(0) #3869579
詳解 (共 1 筆)
這題的正確答案是 (C) 繪製各類流量來源對轉換率的關聯圖,尋找潛在關係。
以下是針對每個選項的邏輯推理與資料科學流程分析:
-
✅ (C) 是正確的: 探索性資料分析(Exploratory Data Analysis, EDA) 的核心目的是在建立模型或進行正式的統計推論之前,先「了解資料的樣貌」。這通常涉及計算基本統計量、處理缺失值,以及大量使用視覺化圖表(如長條圖、散佈圖、關聯圖等)來觀察特徵之間的分布與潛在關係。繪製流量來源與轉換率的關聯圖,正是為了發掘資料中隱藏的趨勢或特徵,完全符合 EDA 的定義。
-
❌ (A) 是錯誤的: 建立「隨機森林模型(Random Forest)」並預測結果,屬於資料科學流程中的 預測性建模(Predictive Modeling) 或 機器學習(Machine Learning) 階段。這必須建立在已經完成 EDA、挑選好特徵(Feature Engineering)之後才會進行,並不屬於探索資料的初始階段。
-
❌ (B) 是錯誤的: 使用 K-means 進行分群雖然有時可用來初步了解資料結構,但選項提到「並立即制定對應促銷策略」,這已經跨越了分析階段,進入了 商業決策與行動(Business Decision & Action)。EDA 的目的是「發掘問題與現象」,而不是直接產出最終的商業策略。
-
❌ (D) 是錯誤的: 設定統計假設並進行「雙樣本 t 檢定」,這屬於 驗證性資料分析(Confirmatory Data Analysis, CDA) 或 統計推論(Statistical Inference)。EDA 是為了「產生假設」(看看資料有什麼可能),而 CDA 則是為了解決「證明假設」(透過嚴格的數學檢定來證實觀察到的現象是否具有統計顯著性)。這兩者在分析流程中是前後承接的關係。