雖然從2014年開始,就已經(jīng)出現(xiàn)MLOps的實踐案例,但這套AI協(xié)作的概念兩年前被重新定義,形成一股AI開發(fā)新趨勢吹進(jìn)全球。
MLOps興起主要有三大原因。第一,是企業(yè)用過去的開發(fā)方法來擴(kuò)大AI應(yīng)用規(guī)模時,開始面臨瓶頸,Line臺灣資料工程部資深經(jīng)理蔡景祥以自身經(jīng)驗為例表示,過去只有自己一人開發(fā)AI時,能清楚了解每個程式開發(fā)步驟的意涵,但這種開發(fā)流程過於客制化,一旦有第二個角色要共同協(xié)作,就得相互溝通來理解每個開發(fā)步驟,徒增許多溝通成本。
勤業(yè)眾信去年發(fā)布的技術(shù)趨勢報告也提到,企業(yè)剛開始開發(fā)AI時,容易采取英雄主義作法,靠少數(shù)資料科學(xué)家包辦從頭到尾的開發(fā)流程,但這些流程高度手動、難被復(fù)制或擴(kuò)張,會增加協(xié)作過程中的溝通成本,難以提升開發(fā)速度。藉由MLOps的實踐,才能讓過去自成一格的特制化開發(fā)(Exceptionalism),走向快速擴(kuò)張且更有效率的專業(yè)化開發(fā)(Professionalism)。
第二,則是AI開發(fā)面臨部署上線的挑戰(zhàn),讓更多企業(yè)開始采用MLOps。根據(jù)國外企管顧問公司Vantage Partners去年調(diào)查,在美國,盡管有91.5%的企業(yè)都表示正在持續(xù)投資AI,卻只有14.6%的企業(yè)已經(jīng)將AI部署到生產(chǎn)環(huán)境,換句話說,實作了AI卻難以部署上線,就是企業(yè)應(yīng)用AI的一大痛點。
IDC在2020年發(fā)布的全球AI采用度調(diào)查也發(fā)現(xiàn),根據(jù)受調(diào)查的2,000多位IT或相關(guān)主管回覆,仍有約有28%的專案因缺乏專家、生產(chǎn)數(shù)據(jù)與整合的開發(fā)環(huán)境,最終以失敗收尾。IDC因此鼓吹,企業(yè)必須擁抱MLOps,才能更大規(guī)模的實現(xiàn)AI。
勤業(yè)眾信風(fēng)險管理諮詢副總經(jīng)理廖子毅更以身為資料科學(xué)家的開發(fā)經(jīng)驗點出模型部署的難處。他解釋,雖然在AI開發(fā)的實驗階段,資料科學(xué)家可以在數(shù)周內(nèi)快速訓(xùn)練出良好準(zhǔn)確率的模型,但是,一旦要落地生產(chǎn)環(huán)境,就需要根據(jù)現(xiàn)實資料進(jìn)一步調(diào)校模型,還要將模型打包成預(yù)測服務(wù),手動開發(fā)的過程可能要花費數(shù)月甚至一年以上。因此,企業(yè)得建立起持續(xù)交付、持續(xù)部署的作業(yè)流程,才能加速落地AI。
第三個促使MLOps在一年內(nèi)快速成長的原因,則是受到疫情帶動大環(huán)境快速改變,導(dǎo)致許多部署上線的模型在一夕間不敷使用,凸顯了AI維運的挑戰(zhàn)。勤業(yè)眾信內(nèi)部觀察,疫情期間的「新常態(tài)」,導(dǎo)致許多供應(yīng)鏈需求預(yù)測模型,已經(jīng)無法再仰賴過去的數(shù)據(jù)和假設(shè),需要滾動蒐集企業(yè)與用戶資料,必要時更需重新訓(xùn)練模型,才能維持預(yù)測服務(wù)的準(zhǔn)確率。
業(yè)界也開始感受到MLOps市場升溫,一家MLOps軟體商DataRobot臺灣總經(jīng)理蔡宜真透露,近一年來,企業(yè)對MLOps的詢問度提升,除了疫情驅(qū)動企業(yè)加速采用AI,連帶的提升對MLOps的關(guān)注,更因消費者行為的大幅改變,導(dǎo)致模型表現(xiàn)快速偏移,來詢問的企業(yè)正因這個契機(jī)重新檢視模型維運的流程,開始意識到MLOps的重要性。
更多AI廠商加入戰(zhàn)局,要瓜分2025年40億美元市場大餅
勤業(yè)眾信制作了一張全球MLOps版圖,整理了三大類別的MLOps廠商名單,包括全球六大AI與MLOps服務(wù)供應(yīng)商、從ML平臺跨足MLOps解決方案的供應(yīng)商、以及僅提供MLOps解決方案的業(yè)者。(圖片來源/勤業(yè)眾信)
MLOps概念興起後,市場上越來越多AI服務(wù)供應(yīng)商投入這個市場,帶動了MLOps的聲量。比如公有云大廠如微軟、Google以及AWS,本來就提供完整的AI開發(fā)服務(wù),微軟更在2019年的Build大會上,率先宣布了Azure ML服務(wù)中的MLOps功能,Google以及AWS隨後跟進(jìn),就是讓開發(fā)者能透過平臺工具快速建立ML工作流,更著力於AI全生命周期的管理與監(jiān)控,來加速AI產(chǎn)品化。
勤業(yè)眾信內(nèi)部制作了一張全球MLOps版圖,除了名列三家公有云業(yè)者,更將IBM、SAS與HPE,劃入AI與MLOps大型服務(wù)供應(yīng)商的行列。
MLOps版圖更顯示,在公有云推出服務(wù)之前,市面上也已經(jīng)有些ML平臺服務(wù)供應(yīng)商,提供企業(yè)從開發(fā)到維運端的平臺服務(wù),讓企業(yè)能快速導(dǎo)入來開發(fā)AI應(yīng)用,比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等廠商;後來MLOps興起,這些廠商更進(jìn)一步聚焦ML部署與維運端的工具,奠基在原本的ML平臺的基礎(chǔ)上提供MLOps服務(wù)。除此之外,市場上也出現(xiàn)了單純提供MLOps解決方案的新創(chuàng)企業(yè),比如Dotscience、Algorithmia、Datmo等。
勤業(yè)眾信風(fēng)險管理諮詢副總經(jīng)理許梅君提供一份內(nèi)部估計,MLOps市場預(yù)計在2025年達(dá)到40億美元,復(fù)合年增長率為50%,將成企業(yè)擴(kuò)大應(yīng)用AI的又一大關(guān)鍵市場。
除了導(dǎo)入相關(guān)工具與平臺,許梅君也提醒,企業(yè)需建立一套管理機(jī)制,讓AI在合規(guī)的前提下快速落地,比如資料治理的規(guī)范、資料及專案的權(quán)限管理、資安與AI風(fēng)險的管理,也需透過相關(guān)規(guī)則的建立,避免AI做出違背常理的判斷或有偏見的決策,且當(dāng)AI用於個人化決策的場景,更要建立可解釋性AI機(jī)制,以及人機(jī)協(xié)作進(jìn)行決策的原則或方法。
「導(dǎo)入工具或平臺來解決局部的問題,能夠快速看見AI開發(fā)的成效,但光是這樣不能解決企業(yè)面臨的所有問題,還要建立起管理機(jī)制,帶動組織或文化的改變。 」許梅君說。
不只講究ML模型自動化,AI維運也是MLOps關(guān)鍵
「過去,資料科學(xué)家部署完模型後,就認(rèn)為工作已經(jīng)告一段落,沒有模型維運的概念,」DataRobot資料科學(xué)家藍(lán)秀仁解釋,以前只講Model Management,聚焦開發(fā)流程中的版本管理。直到近幾年,模型上線後表現(xiàn)產(chǎn)生偏移而失效,才讓更多人認(rèn)真的看待模型維運的重要性,在MLOps中,更重視透過監(jiān)控并迭代更新模型,來維持預(yù)測服務(wù)的準(zhǔn)確率。
MLOps泛指從AI開發(fā)到維運各階段的協(xié)作,若聚焦在ML部署與維運階段,涵蓋了從模型快速部署、上線、監(jiān)控到重新訓(xùn)練等機(jī)制。
這個階段不只要讓不同程式語言、架構(gòu)開發(fā)的ML模型,能夠快速部署到生產(chǎn)環(huán)境,整合到系統(tǒng)或App來提供預(yù)測服務(wù)。預(yù)測服務(wù)上線後,也需透過監(jiān)控機(jī)制來檢視模型表現(xiàn),來了解部署在本地端、云端的每個ML模型,每日新進(jìn)的輸入資料是否漂移、模型的準(zhǔn)確率是否下降、預(yù)測服務(wù)是否健康,更要能長期監(jiān)控模型表現(xiàn)的變化趨勢,來更全面的評估是否有重新訓(xùn)練、迭代更新的需求。
藍(lán)秀仁也建議,企業(yè)應(yīng)在維運監(jiān)控階段,納入一般常識檢查的判斷機(jī)制,像是,讓上線後的ML模型預(yù)測結(jié)果,不會違背常理或超出現(xiàn)實,比如若AI預(yù)測出年齡超過120歲、日薪超過千萬,或是自駕車辨識道路的信心值不夠高,就會透過一套機(jī)制來阻止決策執(zhí)行。
另外,為了避免模型做出偏誤決策而不自知,企業(yè)也應(yīng)設(shè)計偏誤資料的監(jiān)測機(jī)制,在模型輸出不公正預(yù)測結(jié)果時,找出隱含偏見的訓(xùn)練資料,再交由開發(fā)人員將偏誤資料去除,重新進(jìn)行模型開發(fā)、部署更新的流程。
如何選擇MLOps工具?
勤業(yè)眾信提供了一家AI解決方案供應(yīng)商Ambiata所制作的MLOps工具比較表,可做為企業(yè)評選MLOps商用與開源工具之用。這個比較表將MLOps工具分為四個類別,分別是資料與Pipeline版本控管、模型實驗版本控管、超參數(shù)調(diào)校、模型部署與監(jiān)控。勤業(yè)眾信提醒,企業(yè)得先清楚了解哪一個環(huán)節(jié)有需求,例如待解決的開發(fā)痛點,再來導(dǎo)入相應(yīng)功能的工具。
由於功能相近的MLOps軟體很多,企業(yè)也可以進(jìn)一步根據(jù)自身常用的程式言語與函式庫,比如企業(yè)開發(fā)AI時,使用Python與R來開發(fā),常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式庫,來選擇可支援開發(fā)的MLOps工具導(dǎo)入。
在挑選工具時,也能參考GitHub上的評分星級、貢獻(xiàn)者或員工數(shù)量,列為挑選工具的一大考量,前者可作為該工具受歡迎程度的參考,後者則可以作為該工具能否長期支持AI開發(fā)的指標(biāo)。