AI 模型是什麼,什麼是建模

先講我個人的結論:

模型:是應用過往的資料,預測未來尚未發生的或是不存在的事情
建模:則是利用很多大師提出已被驗證過的演算法以及被驗證過的各種神經網路堆疊架構去組合出的一個能解決問題的框架(函數-我其實不太想說函數,免得又複雜的讓人卻步)
 
我們去看從簡單的Regression、Logistic Regression、SVM、randomForest、lightgbm、XGBoost,一直到複雜的LSTM、GAN、BERT...,這些偉大的模型,真的才是稱的上數據科學家的人,共同發展出來的框架
 
對於我們一般企業來說,如何用這些既定的模型,如何調參或者拆掉某一些層再訓練,又或者是模型再串模型(machine learning中的pipeline),這對企業單位的應用可以說是比較實際的問題,因為我們不可能像google這樣的公司擁有全世界的龐大資料,也不太可能像google、IBM等公司有用不完的運算資源以及AI科學家(這些人其實太頂尖,也不是真的很多)
 
我的另一個看法是目前較成熟的AI,主要還是針對一些特定的問題,例如:二分類、多分類、影像辦識、語音辨識,而通常解決多分類的模型不太可能解決語音辨識的問題,很多的問題(我的問題是猜大樂透下期會出那些號碼似乎還沒有好的模型啊:))其實都是用問題去找模型,這世界上模型愈來愈多,有沒有一種模型是當我輸入問題,模型就可以告訴我最適合的模型是什麼,並且可以自動調參,據說有人在做這檔事
 
我只是把走了這麼大一圈的路才得出的結論分享給大家,當然這一圈也沒白走,希望更多的人參與,才會有進步
 
kaggle上有很多的問題及範例,當大家有這些概念後,可以去看看,我常看有些人為了學AI,學了很深的網路爬文技巧,如果你是要預測股價,或許ok,但是要理解一下特徵工程做法,如果不是可以先從kaggle裡面有沒有跟你類似的問題,大家在上面提供的solution作法,這樣學起來比較快

有空的時候可以看一下古典統計、線性代數、導數、偏微分或者上上台大李宏毅教授的線上課程,時不時補充一下數理概念會更好
 
另外對資料庫概念最好要有摸過,知道什麼是key值,什麼是group by,什麼是join
 
所謂好的模型,其實就是了解自己或公司想要預測或解決什麼問題,找出別人做過的類似框架,利用自己的知識,或者找一個好的老師帶,然後改成自己合用的框架,並經過一系列的驗證(ROC,AUC,loss,metrics...),這就是適合你或公司的模型,老實說不用學太深奧的程式框架,下手做了就知道
 

 

留言

這個網誌中的熱門文章

#AI #python 在公司應用的心得(二):#心態 很重要

#AI #python 在公司應用的心得(一):AI 大概念