工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

但光憑想像，很難評估實際的AI數據量和成效，所以開始AI的第一步，需要先透過POC概念驗證(ProofofConcept)實驗來找答案。(圖片來源：林軒田教授機器學習 ...

所以，訓練AI模型時，團隊如果不知道如何判斷哪個指標，對AI模型學習來說比較重要，建議回歸初心，重新釐清「這個專案想達到的商業目標是什麼」。

比方，趨勢科技 (Trend Micro) 要開發一個能夠判斷電腦病毒的AI，但是勒索病毒 (denial-of-access attack) 和廣告病毒對客戶的傷害程度大不相同。這時候，工程師就會針對這個命題，餵給AI模型不同病毒種類的數據，讓它學會判斷不同病毒的重要性，分辨出哪些病毒比較嚴重不能有判斷錯誤，而哪些病毒比較無害，不一定要做到一百分。

最常見的訓練方法，是用成本函數(Cost Function)的方式，訓練完再回去調整AI模型的評分(Rating)，用加扣分的方式，告訴機器它的學習表現是好是壞，做對就加分，做錯就扣分。

上述評分原則的制定，和企業的商業價值考量息息相關，所以一般在組織分工，會由PM專案團隊負責判斷哪些項目重要，請資料科學家設計在上述Cost Function裡面。

很多人以為，AI人工智慧開發要做到很完美才行，但其實根據我們的經驗，只要AI開發成本符合預算、AI模型表現可接受（大約做到60-70分），而且結果有助於降低成本，就可以算是達到商業目標。反過來，即使AI模型表現非常好（高達90分），但成本卻遠超出預算，就不建議執行。

另外，因為POC階段會做很多的實驗，需要拿兩個穩定且可以互相比較的基準做A/B Test，所以做好基礎建設非常重要。

如果一個團隊裡面有三位工程師，但三個人做出來的結果都無法互相比較，那麼這個實驗就會變得霧裡看花，導致AI專案難以落地。

「機器學習」到底需要多少資料？ | 就愛喝咖啡

2018年12月10日 — 2. 資料量與特徵量的比例. 機器學習中對於資料的表達一般是n*m的矩陣，n代表樣本的數量，一行（row）資料代表一個獨立資料。 Read More

工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

但光憑想像，很難評估實際的AI數據量和成效，所以開始AI的第一步，需要先透過POC概念驗證(Proof of Concept) 實驗來找答案。 (圖片來源：林軒田教授機器學習 ... Read More

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

所以這篇文章將點出十個機器學習中常犯的隱形錯誤。資料面. 資料收集與處理不當; 訓練集與測試集的類別分佈不一致; 沒有資料視覺化的習慣; 使用LabelEncoder 為特徵 ... Read More

机器学习要求多大的数据量？我做的东西到底是不是 ... | 就愛喝咖啡

但实际上机器学习项目的目标多种多样，可以产生大量的训练数据类型。因此，每个项目都有各自独特的多种因素，这使得提前计算数据需求变得非常困难，可能包括以下部分或 ... Read More

何謂機器學習？ | 就愛喝咖啡

機器學習(ML) 是人工智慧(AI) 的一種，讓系統從資料當中反複學習，其方法是 ... 這麼龐大的資料量，根本不可能靠人類來加以分析、分類、排序、學習，並預測任何事情。 Read More

[資料分析&機器學習] 第2.4講：資料前處理(Missing data | 就愛喝咖啡

2021年7月21日 — 資料的品質、特徵的選取決定了機器學習的上限，模型(Model)只是逼近這個上限。雖然在學術界總是以Model為主要討論 ... 丟棄，如果資料量夠多; 補值. Read More

12.1 人工智慧的巨量資料學習法 | 就愛喝咖啡

巨量資料如何學習？ ... 機器進行學習會經歷以下過程：. 收集資料（Gathering data ）. 準備數據（Preparing that data）. 選擇模型（Choosing a model）. 訓練機器（ ... Read More

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

2019年6月13日 — 缺少資料? 如上所述，不可能合理地估計AI項目所需的最小數據量。顯然，項目的本質將影響您需要的 ... Read More

相關資訊整理

測試資料評價：插座()很多、限時好吃程度 0 顆星

測試資料評價好嗎？這邊幫大家整理位於測試資料的測試資料詳細資訊，像是Wifi、安靜度、甜點、插座及網友評分：店名：測試資...

工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

「機器學習」到底需要多少資料？ | 就愛喝咖啡

工程師要訓練AI模型，準備多少學習數據才夠？ | 就愛喝咖啡

[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡

机器学习要求多大的数据量？我做的东西到底是不是 ... | 就愛喝咖啡

何謂機器學習？ | 就愛喝咖啡

[資料分析&機器學習] 第2.4講：資料前處理(Missing data | 就愛喝咖啡

12.1 人工智慧的巨量資料學習法 | 就愛喝咖啡

我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡

測試資料評價：插座()很多、限時好吃程度 0 顆星

客棧咖啡日式早午餐評價：插座(也許)很多、無限時好吃程度 5 顆星

Cafe' a' la mode評價：插座()很多、限時好吃程度 0 顆星

咖啡烟評價：插座(是)很多、無限時好吃程度 5 顆星

羅曼尼咖啡評價：插座(是)很多、無限時好吃程度 4 顆星

泰比咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

握咖啡Oh！cafe 宜蘭羅東店評價：插座(也許)很多、無限時好吃程度 5 顆星

合日咖啡評價：插座(無)很多、無限時好吃程度 5 顆星

K30 COFFEE評價：插座(無)很多、無限時好吃程度 0 顆星

mumu小客廳評價：插座()很多、限時好吃程度 4 顆星

尚品咖啡 (南門店)評價：插座()很多、無限時好吃程度 5 顆星

好咖 Howcup CURRY CAFE'評價：插座(無)很多、有時候限時好吃程度 4 顆星

Bean There Cafe 自家烘焙館評價：插座(無)很多、無限時好吃程度 3 顆星

義來義去 Eagle Cafe評價：插座(是)很多、無限時好吃程度 4 顆星

月光咖啡廳評價：插座(也許)很多、無限時好吃程度 5 顆星

鐵工廠咖啡評價：插座()很多、限時好吃程度 0 顆星