[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

正是因為AI技術的創新與普及，訓練機器學習模型再也不是理工背景的人才能做的事。...在預設的情況下所有Sklearn分類器在呼叫score()函數時都使用準確度作為評分 ...

今日學習目標探討機器學習常犯的十件錯誤前言

人工智慧近年來成為任何產業熱門的話題之一，各公司積極地導入機器學習技術協助產業 AI 化。例如：智慧醫療、智慧交通、智慧製造......等。正是因為 AI 技術的創新與普及，訓練機器學習模型再也不是理工背景的人才能做的事。此外隨著 Python 開發社群茁壯，許多開源的 AI 套件如雨後春筍般的出現大大降低了機器學習建模的門檻。在今天的內容中我想藉由鐵人賽來跟大家分享機器學習常犯錯的十件事，並且從資料面與模型面的角度來探討機器學習應該注意的幾件事。尤其是在初學階段，因缺乏經驗往往會犯一些無可避免的錯誤。所以這篇文章將點出十個機器學習中常犯的隱形錯誤。

資料面

資料收集與處理不當訓練集與測試集的類別分佈不一致沒有資料視覺化的習慣使用 LabelEncoder 為特徵編碼資料處理不當導致資料洩漏

模型面

僅使用測試集評估模型好壞在沒有交叉驗證的情況下判斷模型性能分類問題僅使用準確率作為衡量模型的指標迴歸問題僅使用 R2 分數評估模型好壞任何事情別急著想用 AI 解決 1. 資料收集與處理不當

機器學習首要的步驟是定義問題，當確定目標與方向後即可開始搜集資料。相信大家都知道現實生活中的資料得來不易，即使從資料庫取得了這些資料後我們還需要花大量的時間進行資料清洗。所謂的資料清洗是資料庫當中可能會有缺失值，例如：NA、Inf、NaN、NULL。

NA：表示缺失值，是...

DAY04 | 就愛喝咖啡

[Day10] 評估模型指標 | 就愛喝咖啡

B方法的结果位於随机猜测线（對角線）上，在例子中我们可以看到B的準確度（ACC，定義見前面表格）是50%。 C方法雖然預測準確度最差，甚至劣於隨機分類，也就是低於0.5（ ... Read More

淺談機器學習的效能衡量指標(1) - | 就愛喝咖啡

2019年11月13日 — 初接觸機器學習時，常會給幾個效能衡量指標搞得一個頭兩個大：. 混淆矩陣(Confusion Matrix)。準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 ... Read More

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

正是因為AI 技術的創新與普及，訓練機器學習模型再也不是理工背景的人才能做的事。 ... 在預設的情況下所有Sklearn 分類器在呼叫 score() 函數時都使用準確度作為評分 ... Read More

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

2021年10月9日 — 正是因為AI 技術的創新與普及，訓練機器學習模型再也不是理工背景的人才能 ... 在預設的情況下所有Sklearn 分類器在呼叫 score() 函數時都使用準確度 ... Read More

如何確保大數據分析的品質：淺談監督式機器學習的測試評估方法 | 就愛喝咖啡

假陰性(False negative，FN)：真實值是陽性且軟體預測輸出結果是陰性，不正確。 · 準確度(Accuracy，ACC)：代表預測正確的準確度 · 靈敏度(Sensitivity，SEN)：代表正確預測 ... Read More

機器學習統計方法 | 就愛喝咖啡

2018年7月10日 — 機器學習-統計方法: 模型評估-驗證指標(validation index). 這篇主要是說「怎麼評估我們訓練出來的模型，成效(performance)好不好」。 Read More

你的Machine Learning Model 品質高嗎？ML機器學習建模3 個 ... | 就愛喝咖啡

2021年8月18日 — 希望藉由整理出這些經驗，能讓即將要踏入資料科學/機器學習領域的夥伴作為 ... 於6/1~6/31 購買作為目標欄位進行建模，得到的模型成效準確度達99%。 Read More

什麼是過度擬合？ | 就愛喝咖啡

過度擬合是一種不理想的機器學習行為，當機器學習模型可為訓練資料提供準確的預測， ... 測試資料集之外性別或民族的候選人，過度擬合會導致演算法的預測準確度下降。 Read More

相關資訊整理

測試資料評價：插座()很多、限時好吃程度 0 顆星

測試資料評價好嗎？這邊幫大家整理位於測試資料的測試資料詳細資訊，像是Wifi、安靜度、甜點、插座及網友評分：店名：測試資...

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

DAY04 | 就愛喝咖啡

[Day10] 評估模型指標 | 就愛喝咖啡

淺談機器學習的效能衡量指標(1) - | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

如何確保大數據分析的品質：淺談監督式機器學習的測試評估方法 | 就愛喝咖啡

機器學習統計方法 | 就愛喝咖啡

你的Machine Learning Model 品質高嗎？ML機器學習建模3 個 ... | 就愛喝咖啡

什麼是過度擬合？ | 就愛喝咖啡

測試資料評價：插座()很多、限時好吃程度 0 顆星

茴香評價：插座()很多、限時好吃程度 5 顆星

OROMO CAFE 世貿店評價：插座(也許)很多、限時好吃程度 5 顆星

Bisou Bisou Pâtisserie café評價：插座()很多、限時好吃程度 4 顆星

綠蓋茶館 - 河南店評價：插座(是)很多、無限時好吃程度 0 顆星

Rufous Coffee評價：插座(也許)很多、無限時好吃程度 5 顆星

202 coffeebar評價：插座(是)很多、無限時好吃程度 4 顆星

黑鯨咖啡評價：插座(是)很多、無限時好吃程度 5 顆星

小白咖啡店評價：插座()很多、限時好吃程度 0 顆星

路易莎評價：插座()很多、限時好吃程度 0 顆星

Moodie Cafe評價：插座(也許)很多、有時候限時好吃程度 5 顆星

MANO MANO評價：插座()很多、限時好吃程度 4 顆星

蜂巢咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

之間；評價：插座(無)很多、無限時好吃程度 5 顆星

Bonbon Cafe評價：插座(無)很多、有時候限時好吃程度 4.5 顆星

Wen's Coffee評價：插座()很多、限時好吃程度 0 顆星