工程師要訓練AI模型,準備多少學習數據才夠? | 就愛喝咖啡
![工程師要訓練AI模型,準備多少學習數據才夠?](https://i.imgur.com/B2oemyF.jpg)
但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(ProofofConcept)實驗來找答案。(圖片來源:林軒田教授機器學習 ...
![工程師要訓練AI模型,準備多少學習數據才夠?](https://i.imgur.com/B2oemyF.jpg)
所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「這個專案想達到的商業目標是什麼」。
比方,趨勢科技 (Trend Micro) 要開發一個能夠判斷電腦病毒的AI,但是勒索病毒 (denial-of-access attack) 和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。
最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。
上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。
很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60-70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。
另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。
如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。
「機器學習」到底需要多少資料? | 就愛喝咖啡
工程師要訓練AI模型,準備多少學習數據才夠? | 就愛喝咖啡
[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡
机器学习要求多大的数据量?我做的东西到底是不是 ... | 就愛喝咖啡
何謂機器學習? | 就愛喝咖啡
[資料分析&機器學習] 第2.4講:資料前處理(Missing data | 就愛喝咖啡
12.1 人工智慧的巨量資料學習法 | 就愛喝咖啡
我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡
![](https://i.imgur.com/B2oemyF.jpg)
測試資料評價:插座()很多、限時 好吃程度 0 顆星
測試資料評價好嗎?這邊幫大家整理位於測試資料的測試資料詳細資訊,像是Wifi、安靜度、甜點、插座及網友評分:店名:測試資...