技術文章

當前頁面︰ 首頁 >技術文章 >處理不平衡數據的7個技巧

平安彩票网 - 平安彩票官方开奖网_平安彩票网app下载

供稿︰中國工控網 2018/5/28 11:11:15

0 人氣︰0

  • 關鍵詞︰ 不平衡數據
  • 摘要︰大多數機器學習算法對于不平衡數據集的處理不是很好。 以下七種技術可以幫你訓練分類器來檢測異常類。

大多數機器學習算法對于不平衡數據集的處理不是很好。 以下七種技術可以幫你訓練分類器來檢測異常類。

1.使用正確的評估指標

對使用不平衡數據生成的模型應用不恰當的評估指標可能是危險的。

想象一下,我們的訓練數據如上圖所示。 如果使用精度來衡量模型的好壞,使用將所有測試樣本分類為“0”的模型具有很好的準確性(99.8%),但顯然這種模型不會為我們提供任何有價值的信息。

在這種情況下,可以應用其他替代評估指標,例如︰

精度/特異性︰有多少個選定的相關實例。

調用/靈敏度︰選擇了多少個相關實例。

F1得分︰精度和召回的諧波平均值。

MCC︰觀察和預測的二進制分類之間的相關系數。

AUC︰正確率與誤報率之間的關系。

2.重