【Day13】2rd:訓練與測試資料集 | 就愛喝咖啡
![【Day13】2rd:訓練與測試資料集](https://i.imgur.com/B2oemyF.jpg)
首先當然是要兩個資料集:.訓練資料集(trainingset):用來訊連模型;測試資料集(testset):用來驗證模型.比例可以為80%為訓練,20%為測試.
![【Day13】2rd:訓練與測試資料集](https://i.imgur.com/B2oemyF.jpg)
本篇也是進行說明,是關於訓練資料與測試資料相關資訊。
上篇說明模型「泛化」,當我們做出模型的時候,要進行調整與測試,讓我們的預測越接近現況。而在這邊要規劃我們的訓練資料集以及測試資料集,畢竟模型要訓練,而模型要驗證。在關於資料集的部份有些事情需要注意。
首先當然是要兩個資料集:
訓練資料集(training set):用來訊連模型 測試資料集(test set):用來驗證模型
當我們有一份資料,首先要確定他的數量(規模)已經大到足以有「統計意義」。假如我們要「推測全世界使用智慧型手機的人會用什麼品牌」,如果我們的資料只有3個人,那這樣豈能用3人的結果代替群體?如果他們都是拿iPhone,我們可以判斷全世界的人都是拿iPhone嘛?所以資料量要足夠到可以代表我們要測試的群體才行。
第二點,資料需要分成兩個部分,一個是訓練用,一測試用,這兩個資料需要確保是個「獨立且隨機」的。為什麼要隨機呢?作用是避免資料太過於偏頗。像是上面的範例,為了準確推測,在訓練時的資料是隨機抽取,如果沒有隨機,都給予iPhone的話,未來預測資料會認為100%是拿iPhone,但實際上是使用Android手機,這樣模型就失準了。
第三點為「絕對不要訓練測試資料」。測試資料是來驗證我們的模型,當我們拿測試資料集來訓練,表示我們的模型是根據答案去做調整,會影響到訓練時的數據,可能會導致模型公式有偏頗。
練習的話,可以參考:本篇的Play Ground[1]
References 本篇的Play Ground (developers.google.com)Day4 利用Python處理資料(3) | 就愛喝咖啡
[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡
[DAY13] 資料的劃分-訓練集(training set)、驗證集 ... | 就愛喝咖啡
【Day13】2rd:訓練與測試資料集 | 就愛喝咖啡
【QA】為什麼做模型時需要將同一個訓練集(Training Data ... | 就愛喝咖啡
將資料分割為訓練和評估資料 | 就愛喝咖啡
機器學習怎麼切分資料:訓練、驗證、測試集 | 就愛喝咖啡
訓練集、驗證集、測試集的定義與劃分 | 就愛喝咖啡
![](https://i.imgur.com/B2oemyF.jpg)
測試資料評價:插座()很多、限時 好吃程度 0 顆星
測試資料評價好嗎?這邊幫大家整理位於測試資料的測試資料詳細資訊,像是Wifi、安靜度、甜點、插座及網友評分:店名:測試資...