[Day 24] 機器學習 | 就愛喝咖啡

在機器學習中大家可能最常見的問題是，當訓練好了模型並在測試資料也獲得不錯的成績。...這種情況就是所謂的過度擬合，它是一個在機器學習領域中非常棘手的的問題。

今日學習目標如何選擇最佳的模型？深入理解度擬合與欠擬合如何避免過擬合與欠擬合？

在機器學習中大家可能最常見的問題是，當訓練好了模型並在測試資料也獲得不錯的成績。於是很開心的落地並部署到真實場域中，殊不知預測出來的結果遠遠不如預期。我想這個痛點大家應該都經歷過，尤其是機器學習的新手。這種情況就是所謂的過度擬合，它是一個在機器學習領域中非常棘手的的問題。當你的模型過度的擬合訓練集，這意味著你的模型過於複雜的去記住所有現有的數據點，進而導致模型的泛化能力不佳，這不是我們期望的。所謂的模型泛化能力是指，當我利用訓練集訓練一個模型後再拿另一組模型沒看過的資料進行預測，最終的預測結果如果在沒看過的資料中依然保持不錯的表現我們就可以說此模型泛化能力強。今天我們將來詳細探討何謂過度擬合，以及該如何去解決它使得模型處於一個適當的狀態。

如何選擇最佳的模型？

通常我們希望預測出來的結果要與實際的數值越接近越好，也就是在模型訓練的過程中我們要想辦法最小化誤差使得模型的誤差越小越好。那麼我們該如何評估訓練出來的模型好壞呢？以下圖為例，假設我們要訓練一個二元分類器。最簡單的方法是找出一條線夠將這兩個類別完整地分開，然而這一條切割的線要長得怎樣才是好的模型呢？從下圖我們可以發現紅色虛線的模型完整的擬合於訓練資料，而紅色實線的模型相對的比較沒有那麼嚴厲，在兩個類別間適當的找出一條平滑的曲線來區隔兩類的資料。

接著我們拿測試資料進行模型預測，可以發現由於紅色虛線的模型已經完整記住了訓練集的趨勢，因此在新的沒看過的資料表現就沒有那麼好了。尤其是在兩類別分隔線附近的資料最能看出端倪。於是我們可以很確定紅色虛線的模型已經過度擬合訓練資料了。另外紅色實現的模型雖然在訓練集中有幾筆會預測錯誤，但是它再測試集資料中一樣保持穩定的預測能力。

從上述的例子我們可以得知，在訓練模型時並非訓練集的誤差越小越好。我們必須同時拿測試集驗證模型的預測能力，目標是訓練集與測試集的平均誤差要越近越好。

AI機器學習成效不好，原來是這些環節出了問題 | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

2021年10月9日 — 機器學習首要的步驟是定義問題，當確定目標與方向後即可開始搜集資料。 ... 或是你的測試資料筆數太少，沒辦法足以驗證模型好壞。 Read More

[Day 24] 機器學習 | 就愛喝咖啡

在機器學習中大家可能最常見的問題是，當訓練好了模型並在測試資料也獲得不錯的成績。 ... 這種情況就是所謂的過度擬合，它是一個在機器學習領域中非常棘手的的問題。 Read More

[精進魔法] Regularization：減少Overfitting ，提高模型泛化能力 | 就愛喝咖啡

深度學習常遇到的問題是：難以概括看不見的數據。神經網絡具有大量的權重雖然可以很好地抓出訓練集中的特徵，卻也容易導致過度擬合的現象。若碰見資料不均的情況（例如 ... Read More

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

2019年6月13日 — 數據稀缺問題非常重要，因為數據數據是任何AI項目的核心。數據集的大小通常是ML項目表現不佳的原因。大多數情況下，與數據相關的問題是無法實現優秀人工 ... Read More

你的Machine Learning Model 品質高嗎？ML機器學習建模3 個 ... | 就愛喝咖啡

2021年8月18日 — 根據問題類型，用適當的指標來評估模型好壞，並根據評估結果優化模型。 Deployment & Monitoring. 將完成的模型部署到特定環境做上線應用，持續產出最新的 ... Read More

使用機器學習解決問題的五步驟：定義問題 | 就愛喝咖啡

2023年1月27日 — 如同上方的圖片所示，透過機器學習解決問題的五步驟，分別為：. 定義問題(Define Problem); 建立資料集(Build Dataset); 訓練模型(Train Model); 評估模型 ... Read More

小資料系列初篇-Few | 就愛喝咖啡

2021年1月21日 — Big data是指企業為了自動化做機器學習所需要的大量資料。其中包含了5個V：資料量(Volume)大、 ... 當資料太少的時候會使模型和資料真正特性不符。 Read More

相關資訊整理

測試資料評價：插座()很多、限時好吃程度 0 顆星

測試資料評價好嗎？這邊幫大家整理位於測試資料的測試資料詳細資訊，像是Wifi、安靜度、甜點、插座及網友評分：店名：測試資...

[Day 24] 機器學習 | 就愛喝咖啡

AI機器學習成效不好，原來是這些環節出了問題 | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

[Day 24] 機器學習 | 就愛喝咖啡

[精進魔法] Regularization：減少Overfitting ，提高模型泛化能力 | 就愛喝咖啡

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

你的Machine Learning Model 品質高嗎？ML機器學習建模3 個 ... | 就愛喝咖啡

使用機器學習解決問題的五步驟：定義問題 | 就愛喝咖啡

小資料系列初篇-Few | 就愛喝咖啡

測試資料評價：插座()很多、限時好吃程度 0 顆星

客棧咖啡日式早午餐評價：插座(也許)很多、無限時好吃程度 5 顆星

Cafe' a' la mode評價：插座()很多、限時好吃程度 0 顆星

咖啡烟評價：插座(是)很多、無限時好吃程度 5 顆星

羅曼尼咖啡評價：插座(是)很多、無限時好吃程度 4 顆星

泰比咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

握咖啡Oh！cafe 宜蘭羅東店評價：插座(也許)很多、無限時好吃程度 5 顆星

合日咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

K30 COFFEE評價：插座(無)很多、無限時好吃程度 0 顆星

mumu小客廳評價：插座()很多、限時好吃程度 4 顆星

尚品咖啡 (南門店)評價：插座()很多、無限時好吃程度 5 顆星

好咖 Howcup CURRY CAFE'評價：插座(無)很多、有時候限時好吃程度 4 顆星

Bean There Cafe 自家烘焙館評價：插座(無)很多、無限時好吃程度 3 顆星

義來義去 Eagle Cafe評價：插座(是)很多、無限時好吃程度 4 顆星

月光咖啡廳評價：插座(也許)很多、無限時好吃程度 5 顆星

鐵工廠咖啡評價：插座()很多、限時好吃程度 0 顆星