我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡
2019年6月13日—缺少資料?如上所述,不可能合理地估計AI項目所需的最小數據量。顯然,項目的本質將影響您需要的 ...
數據稀缺問題非常重要,因為數據數據是任何AI項目的核心。數據集的大小通常是ML項目表現不佳的原因。
大多數情況下,與數據相關的問題是無法實現優秀人工智能項目的主要原因是,沒有相關數據或收集過程太困難且耗時。
監督式機器學習模型被應用於應對各種商業上的挑戰。但是,這些模型需要大量數據,其性能比很大程度上取決於可用的培訓數據。在許多情況下,很難創建足夠大的訓練數據集。
另一個問題是項目分析師傾向於低估處理常見問題所需的數據量。在為大公司工作時收集數據更加複雜......
所以需要多少資料?大概需要自由度的10倍。模型越複雜,您就越容易過度擬合,但可以通過驗證來避免。但是,根據用例可以使用更少的數據。
處理缺失值將取決於某些“成功”標準。此外,這些標準因不同的數據集而異,甚至適用於不同的應用,如識別,分割,預測,分類等。
重要的是要理解"沒有完美的方法來處理遺失的數據"。
當涉及到預測技術時,只有在沒有完全隨機觀察缺失值且使用與被解釋變數有某種關係的變量來估算這些缺失值,否則它可能產生不精確的估計。
通常,可以使用不同的機器學習算法來確定缺失值。這可以通過將缺少的特徵轉換為標籤本身,現在使用沒有缺失值的列來預測具有缺失值的列
如果你決定構建一個基於AI的解決方案,那麼在某些時候你將面臨缺乏數據或缺少數據的問題,但幸運的是,有很多方法可以將補足數據。
缺少資料?如上所述,不可能合理地估計AI項目所需的最小數據量。顯然,項目的本質將影響您需要的數據量。例如,文本,圖像和視頻通常需要更多數據。但是,為了做出準確的估計,還應考慮許多其他因素。
要預測的類別數
您的模型的預期輸出是多少?基本上,預測的類別越少越好。
模型績效
「機器學習」到底需要多少資料? | 就愛喝咖啡
[Day 27] 機器學習常犯錯的十件事 | 就愛喝咖啡
工程師要訓練AI模型,準備多少學習數據才夠? | 就愛喝咖啡
机器学习要求多大的数据量?我做的东西到底是不是 ... | 就愛喝咖啡
何謂機器學習? | 就愛喝咖啡
標註的訓練資料不夠怎麼辦?談自我監督學習新趨勢 | 就愛喝咖啡
我們該如何應對機器學習中缺乏數據時的狀況? | 就愛喝咖啡
測試資料評價:插座()很多、限時 好吃程度 0 顆星
測試資料評價好嗎?這邊幫大家整理位於測試資料的測試資料詳細資訊,像是Wifi、安靜度、甜點、插座及網友評分:店名:測試資...