Skip to content

Classification vs. Prediction

https://www.fharrell.com/post/classification/

從醫學角度看待機器學習的分類與預測的差異。

  1. 分類(Classification)與預測(Prediction)的區別

分類結合了預測與決策,等於在預測後直接做出決策,這會強加一個固定的決策標準(如損失/效用),忽略不同使用者的需求。

預測則是單純給出機率或趨勢,讓決策者根據自身情境與成本/效用自行決策。

  1. 何時適合用分類?

當結果是明確且決定性的(非隨機),且預測變數足夠強大,能讓每個個體的預測機率接近0或1時。

適合高信噪比、可重複驗證、標準明確的機械式問題(如圖像辨識、聲音辨識等)。

  1. 何時應該用預測(機率模型)?

當結果具有隨機性或不確定性(如醫療、天氣、金融等),即使輸入相同,結果也可能不同。

當需要根據不同使用者的utility function、風險承受度來做決策時。

當信噪比低、資料變異大、樣本不平衡時。

  1. 機器學習與統計的思維差異

機器學習領域常忽略機率思維,傾向直接分類,甚至將邏輯回歸誤認為分類方法(其實是機率模型)。

統計強調不確定性、機率與變異,適合用於風險評估與決策支援。

  1. 分類的侷限與風險

分類假設所有人有相同的utility function,實際上不同決策者的風險門檻不同。

分類是強制選擇,無法反映「不決策/需更多資料」或「可撤銷決策」等情境。

樣本不平衡時,分類器容易失效,且對於不同盛行率的族群,分類器需重新訓練,泛化性差。

  1. 預測機率的優勢

機率本身就是誤差的度量(如預測0.1,錯誤機率就是0.1)。 可根據不同決策情境、utility function彈性應用。

邏輯回歸等機率模型能優雅處理樣本不平衡與不同盛行率的族群。

  1. 評估方法的重要性

應選擇具備正確統計性質的評分規則(如Brier score、log loss等),而非只用「正確分類比例」。 不當的評分標準會導致模型失真。

總結

分類適合於機械式、高信噪比、結果明確的問題;大多數現實世界問題(如醫療、金融、天氣等)應以預測機率為主,讓決策者根據自身情境做出最佳決策。選擇方法時,需考慮問題本質、資料特性與決策需求,並用正確的評估指標來選擇模型。