「機器學習」到底需要多少資料? | 就愛喝咖啡
2018年12月10日—2.資料量與特徵量的比例.機器學習中對於資料的表達一般是n*m的矩陣,n代表樣本的數量,一行(row)資料代表一個獨立資料。
阿新 • • 發佈:2018-12-10
本文首發於微調的知乎專欄「資料說」。
機器學習中最值得問的一個問題是,到底需要多少資料才可以得到一個較好的模型?從理論角度,有Probably approximately correct (PAC) learning theory來描述在何種情況下,可以得到一個近似正確的模型。但從實用角度看,PAC的使用範圍還是比較侷限的。所以今天我們主要想討論一個問題:到底如何定義有效資料量。
1. 資料的粒度(granularity)資料的粒度可以理解為資料的細分程度,或者具體程度。舉個簡單例子,我們想預測股票的走勢,那麼我們可以得到以下歷史資料:
每秒鐘的交易資料
每分鐘的交易資料
...
每年的交易資料
換成另一個場景,如果我們打算對一個句子進行截斷,“我今天真高興”,那麼結果可以是:
我 | 今 | 天 | 真 | 高 | 興
我今 | 今天 | 天真 | 真高 | 高興
我今天 | 天真高 | 高興X
隨著細分程度的改變,那麼資料量也有明顯的變化。資料的粒度越細,資料量越大。一般來說,我們追求儘量細分的資料,因為可以通過聚合(aggregation)來實現從具體資料到巨集觀資料的還原,但反之則不可得。
但是不是資料越具體越好?不一定,過於具體的資料缺失了特徵,有效的特徵僅在某...
「機器學習」到底需要多少資料? | 就愛喝咖啡
[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡
工程師要訓練AI模型,準備多少學習數據才夠? | 就愛喝咖啡
机器学习要求多大的数据量?我做的东西到底是不是 ... | 就愛喝咖啡
何謂機器學習? | 就愛喝咖啡
標註的訓練資料不夠怎麼辦?談自我監督學習新趨勢 | 就愛喝咖啡
我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡
測試資料評價:插座()很多、限時 好吃程度 0 顆星
測試資料評價好嗎?這邊幫大家整理位於測試資料的測試資料詳細資訊,像是Wifi、安靜度、甜點、插座及網友評分:店名:測試資...