「機器學習」到底需要多少資料？ | 就愛喝咖啡

2018年12月10日—2.資料量與特徵量的比例.機器學習中對於資料的表達一般是n*m的矩陣，n代表樣本的數量，一行（row）資料代表一個獨立資料。

阿新 • • 發佈：2018-12-10

本文首發於微調的知乎專欄「資料說」。

機器學習中最值得問的一個問題是，到底需要多少資料才可以得到一個較好的模型？從理論角度，有Probably approximately correct (PAC) learning theory來描述在何種情況下，可以得到一個近似正確的模型。但從實用角度看，PAC的使用範圍還是比較侷限的。所以今天我們主要想討論一個問題：到底如何定義有效資料量。

1. 資料的粒度（granularity）

資料的粒度可以理解為資料的細分程度，或者具體程度。舉個簡單例子，我們想預測股票的走勢，那麼我們可以得到以下歷史資料：

每秒鐘的交易資料

每分鐘的交易資料

...

每年的交易資料

換成另一個場景，如果我們打算對一個句子進行截斷，“我今天真高興”，那麼結果可以是：

我 | 今 | 天 | 真 | 高 | 興

我今 | 今天 | 天真 | 真高 | 高興

我今天 | 天真高 | 高興X

隨著細分程度的改變，那麼資料量也有明顯的變化。資料的粒度越細，資料量越大。一般來說，我們追求儘量細分的資料，因為可以通過聚合（aggregation）來實現從具體資料到巨集觀資料的還原，但反之則不可得。

但是不是資料越具體越好？不一定，過於具體的資料缺失了特徵，有效的特徵僅在某...

「機器學習」到底需要多少資料？ | 就愛喝咖啡

2018年12月10日 — 2. 資料量與特徵量的比例. 機器學習中對於資料的表達一般是n*m的矩陣，n代表樣本的數量，一行（row）資料代表一個獨立資料。 Read More

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

所以這篇文章將點出十個機器學習中常犯的隱形錯誤。資料面. 資料收集與處理不當; 訓練集與測試集的類別分佈不一致; 沒有資料視覺化的習慣; 使用LabelEncoder 為特徵 ... Read More

工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

但光憑想像，很難評估實際的AI數據量和成效，所以開始AI的第一步，需要先透過POC概念驗證(Proof of Concept) 實驗來找答案。 (圖片來源：林軒田教授機器學習 ... Read More

机器学习要求多大的数据量？我做的东西到底是不是 ... | 就愛喝咖啡

重点回答头一个问题，因为这也是很多机器学习研究者普遍存在的问题：“我的项目需要多少训练数据？” 高性能模型与低性能模型之间区别的一个重要原因就是训练数据的质量 ... Read More

何謂機器學習？ | 就愛喝咖啡

機器學習(ML) 是人工智慧(AI) 的一種，讓系統從資料當中反複學習，其方法是透過各種演算法來識別資料中的模式，然後使用可產生精確模型的資料來加以訓練，進而預測結果 ... Read More

標註的訓練資料不夠怎麼辦？談自我監督學習新趨勢 | 就愛喝咖啡

2019年10月22日 — 機器(深度)學習演算法的效益決定於訓練資料的可得性，特別是目前應用中大多為監督式的 ... 所以在標記資料量少的領域，前瞻演算法的效力就很難發揮， ... Read More

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

2019年6月13日 — 缺少資料? 如上所述，不可能合理地估計AI項目所需的最小數據量。顯然，項目的本質將影響您需要的 ... Read More

相關資訊整理

測試資料評價：插座()很多、限時好吃程度 0 顆星

測試資料評價好嗎？這邊幫大家整理位於測試資料的測試資料詳細資訊，像是Wifi、安靜度、甜點、插座及網友評分：店名：測試資...

「機器學習」到底需要多少資料？ | 就愛喝咖啡

「機器學習」到底需要多少資料？ | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

机器学习要求多大的数据量？我做的东西到底是不是 ... | 就愛喝咖啡

何謂機器學習？ | 就愛喝咖啡

標註的訓練資料不夠怎麼辦？談自我監督學習新趨勢 | 就愛喝咖啡

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

測試資料評價：插座()很多、限時好吃程度 0 顆星

客棧咖啡日式早午餐評價：插座(也許)很多、無限時好吃程度 5 顆星

Cafe' a' la mode評價：插座()很多、限時好吃程度 0 顆星

咖啡烟評價：插座(是)很多、無限時好吃程度 5 顆星

羅曼尼咖啡評價：插座(是)很多、無限時好吃程度 4 顆星

泰比咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

握咖啡Oh！cafe 宜蘭羅東店評價：插座(也許)很多、無限時好吃程度 5 顆星

合日咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

K30 COFFEE評價：插座(無)很多、無限時好吃程度 0 顆星

mumu小客廳評價：插座()很多、限時好吃程度 4 顆星

尚品咖啡 (南門店)評價：插座()很多、無限時好吃程度 5 顆星

好咖 Howcup CURRY CAFE'評價：插座(無)很多、有時候限時好吃程度 4 顆星

Bean There Cafe 自家烘焙館評價：插座(無)很多、無限時好吃程度 3 顆星

義來義去 Eagle Cafe評價：插座(是)很多、無限時好吃程度 4 顆星

月光咖啡廳評價：插座(也許)很多、無限時好吃程度 5 顆星

鐵工廠咖啡評價：插座()很多、限時好吃程度 0 顆星