今年AI技術(shù)在市場(chǎng)上備受關(guān)注,許多企業(yè)對(duì)AI技術(shù)的采用躍躍欲試,各家云端大廠也推出自家多項(xiàng)服務(wù)提供給企業(yè),但是都得在云端上運(yùn)行,AI技術(shù)的熱潮,是否也意味著企業(yè)將資料上云端是未來(lái)必然的趨勢(shì)?讓資料倉(cāng)儲(chǔ)龍頭Teradata的技術(shù)長(zhǎng)Stephen Brobst來(lái)告訴你。
Stephen Brobst在高階主管排名服務(wù)ExecRank排名中,曾與Amazon、Tesla Motors以及Intel的技術(shù)長(zhǎng)并列全球前4大技術(shù)長(zhǎng),并曾創(chuàng)立過(guò)3家新創(chuàng)公司,而後到Teradata擔(dān)任技術(shù)長(zhǎng),17年技術(shù)長(zhǎng)資歷更讓他成為歐巴馬的技術(shù)顧問(wèn)。
依照Stephen Brobst的觀察,企業(yè)將資料上云端,并非必然的趨勢(shì),企業(yè)要先厘清上云端的目的,他表示,根據(jù)Gartner統(tǒng)計(jì),「目前只有低於3分之1的企業(yè)將資料放到公有云,」安全性是企業(yè)最大的疑慮,目前多半企業(yè)只將自家資料,放在本地端或是私有云。
許多人對(duì)云端的安全性有所疑慮,Stephen Brobst卻有截然不同的觀點(diǎn),「云端其實(shí)比本地端還要安全!」他表示,想像如云端龍頭大廠AWS,大約有6,000人在維護(hù)云端的安全性,但是,若是一家企業(yè),可能很難做到如此大規(guī)模的投入,他舉例,之前Sony公司被駭客入侵許多明星的薪水資訊外流,其實(shí),被駭?shù)娜潜镜囟说南到y(tǒng),云端完全沒(méi)有被入侵,因此,他認(rèn)為,其實(shí)云端比本地端來(lái)的安全。
不過(guò),他表示,也有不少企業(yè)想將資料搬上云端是為了節(jié)省成本,「那些云端公司沒(méi)說(shuō)的是,資料搬移的費(fèi)用是非常昂貴的!」他坦言,并不是所有的企業(yè)都適合用云端的服務(wù),許多企業(yè)認(rèn)為云端比較便宜,其實(shí)若是像ICBC Bank、eBay這種大規(guī)模的企業(yè),擁有大量的數(shù)據(jù),將資料搬上云端的費(fèi)用十分驚人,但是,若資料量小的企業(yè),將資料放上云端確實(shí)相對(duì)便宜許多。
他也舉例一個(gè)有趣的作法,有些企業(yè)會(huì)用本地端和云端互相配合的方式,用本地端部署系統(tǒng),但是將備份全放在云端,作為災(zāi)難恢復(fù)(Disaster Recovery)的策略,他認(rèn)為這是非常聰明的混合策略,由於云端收費(fèi)是按用量計(jì)費(fèi),但是備份資料平時(shí)幾乎不會(huì)使用,只需付存放的費(fèi)用,對(duì)企業(yè)來(lái)說(shuō)相對(duì)便宜許多。
即使上云端的費(fèi)用昂貴,Stephen Brobst表示,也有企業(yè)是為了敏捷性的考量,將企業(yè)所有的資料、系統(tǒng)搬上云端,他舉例,Netflix現(xiàn)在沒(méi)有資料中心,Netflix為了省去在各地建立資料中心的工作,將所有的系統(tǒng)放上云端,美國(guó)售票公司Ticketmaster也將所有本地端的系統(tǒng),花了60天就搬上云端,他認(rèn)為企業(yè)上云端也是達(dá)到敏捷性的策略之一,并非全然是價(jià)格。
「數(shù)據(jù)不會(huì)跟著分析,是分析要跟著數(shù)據(jù),」他提醒,企業(yè)要清楚數(shù)據(jù)產(chǎn)生的位置,若數(shù)據(jù)都是在本地端產(chǎn)生,那要在云端分析,就會(huì)花費(fèi)不少費(fèi)用,但是,像Ticketmaster就把訂購(gòu)系統(tǒng)、財(cái)務(wù)系統(tǒng)等都放到云端,如此一來(lái),數(shù)據(jù)本來(lái)就在云端,不需要額外付搬移數(shù)據(jù)的費(fèi)用。
企業(yè)AI應(yīng)用目前還面臨兩大難題
提到現(xiàn)在最火紅的AI技術(shù),Stephen Brobst認(rèn)為,AI這個(gè)詞匯比喻成雨傘,由於現(xiàn)在AI這個(gè)詞包山包海,任何與智能有關(guān)的東西,都包含在內(nèi),他表示,AI對(duì)他而言,更像一個(gè)行銷的用語(yǔ),若以技術(shù)層面來(lái)看,他會(huì)先聚焦於機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)探討。
依照Stephen Brobst的觀察,其實(shí)市場(chǎng)上許多企業(yè)高喊采用AI技術(shù),但其實(shí),真正有使用AI技術(shù)的企業(yè),卻是少數(shù),在大多數(shù)的企業(yè)中,以應(yīng)用層面來(lái)看,都還在很初期的階段。
為什麼真正應(yīng)用AI技術(shù)的企業(yè)目前少之又少?他坦言,AI技術(shù)目前還有兩大問(wèn)題尚未解決,第一,企業(yè)的資料科學(xué)家需要知道數(shù)據(jù)分析過(guò)程中,每個(gè)決策的原因,他將深度學(xué)習(xí)演算法比喻成黑盒子,資料科學(xué)家就是要透過(guò)數(shù)據(jù)分析,了解數(shù)據(jù)的前因後果,但深度學(xué)習(xí)不像機(jī)器學(xué)習(xí)是線性回歸的模型,可以解釋每個(gè)決策過(guò)程,深度學(xué)習(xí)的隱藏層則埋沒(méi)了這些重要資訊,甚至,每次執(zhí)行演算法所產(chǎn)生的隱藏層數(shù)量也不一樣,讓企業(yè)無(wú)法得到數(shù)據(jù)的洞察(Insight)。
他舉例,即使深度學(xué)習(xí)的結(jié)果令人滿意,像是銀行信用評(píng)估分析模型,管理者必須了解部門如何做出這樣的決策,避免是因?yàn)槠?jiàn)、種族、性別歧視等不公正的評(píng)斷,醫(yī)療業(yè)亦是如此,若系統(tǒng)就只告訴醫(yī)生用這些藥治療病人,醫(yī)生不會(huì)憑著未知的知識(shí),將病人的生命,冒著風(fēng)險(xiǎn)替病人治療。
不過(guò),他表示,目前高科技制造業(yè)良率判斷和詐騙偵測(cè)這兩大領(lǐng)域,已經(jīng)很成熟地運(yùn)用深度學(xué)習(xí)技術(shù),因?yàn)榱悸屎驮p騙偵測(cè)的決策原因沒(méi)有這麼重要,只要企業(yè)持續(xù)看到改善即可,但是醫(yī)療業(yè)、信用檢測(cè)這些就需要了解決策原因。
他也補(bǔ)充,目前有許多頂尖的科學(xué)家,正在開(kāi)發(fā)可以看見(jiàn)每一層決策的類神經(jīng)網(wǎng)路,也就是可以解釋的分析預(yù)測(cè)模型,若能解決這項(xiàng)問(wèn)題,將會(huì)是企業(yè)能夠采用深度學(xué)習(xí)的關(guān)鍵之一。
第二則是AI的技術(shù)中,不管是機(jī)器學(xué)習(xí)或是深度學(xué)習(xí)都需要非常大量的資料,但大部分的企業(yè)資料量是不足的,導(dǎo)致企業(yè)采用深度學(xué)習(xí)演算法的效果不彰。
許多企業(yè)以為50,000筆數(shù)據(jù)是很大的資料量,但Stephen Brobst強(qiáng)調(diào),用這樣的資料量來(lái)執(zhí)行深度學(xué)習(xí)是不夠,「若要深度學(xué)習(xí)執(zhí)行的結(jié)果是好的,你需要好幾百萬(wàn)筆的數(shù)據(jù)才夠!」他比喻,深度學(xué)習(xí)演算法大約就像8歲的小孩,要一直不斷地給他資訊,從錯(cuò)誤中不斷學(xué)習(xí),才能慢慢的歸納出一套法則。
數(shù)據(jù)分析重點(diǎn)不是資料量,是如何整合多元數(shù)據(jù)
除此之外,雖然Stephen Brobst身為大數(shù)據(jù)倉(cāng)儲(chǔ)公司的技術(shù)長(zhǎng),他表示,他從來(lái)就不喜歡大數(shù)據(jù)這個(gè)用語(yǔ),大數(shù)據(jù)就只是數(shù)據(jù)的一種,目前,數(shù)據(jù)已經(jīng)不是只看量多大,而是要去研究如何分析多元結(jié)構(gòu)的數(shù)據(jù)。
由於目前許多數(shù)據(jù)來(lái)自不同的通道,像是網(wǎng)站的點(diǎn)擊紀(jì)錄、圖片、影音等,包含了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),甚至還要結(jié)合政府的開(kāi)放資料,例如天氣、交通等數(shù)據(jù),他表示,若要能將這些多元的數(shù)據(jù),妥善地分析、應(yīng)用,是需要結(jié)合許多不同的方法和平臺(tái),這也是目前數(shù)據(jù)分析最具挑戰(zhàn)的工作。
未來(lái)全產(chǎn)業(yè)都需分析IoT和感測(cè)器數(shù)據(jù)
近幾年,數(shù)據(jù)的收集與分析變化很快,Stephen Brobst強(qiáng)調(diào),未來(lái)每個(gè)企業(yè)都免不了要分析IoT、感測(cè)器等裝置的數(shù)據(jù),不再只局限於制造業(yè)的良率判斷或是生產(chǎn)線優(yōu)化,邊緣運(yùn)算(Edge Computing)將會(huì)是新的機(jī)會(huì),但他認(rèn)為,目前是以端點(diǎn)收集數(shù)據(jù),共同回饋到中心的系統(tǒng)進(jìn)行運(yùn)算的方式進(jìn)行,中心系統(tǒng)產(chǎn)生適合的演算法,再部署到各個(gè)端點(diǎn)裝置運(yùn)行。
「你不會(huì)想在邊緣裝置上做learning,因?yàn)樘筍tephen Brobst一語(yǔ)點(diǎn)出目前邊緣運(yùn)算,為何還是以中心產(chǎn)生模型推到邊緣裝置的方式,他解釋,若要達(dá)成即時(shí)分析的能力,就得每百萬(wàn)分之一秒,來(lái)來(lái)回回在這些裝置的網(wǎng)路中,傳送、分析資料,這并不是很有效率,因此,基本上,大部分都是先從不同地方的裝置,收集數(shù)據(jù),在中心系統(tǒng)建立適用的模型,在部署到邊緣裝置執(zhí)行。
他表示,如此一來(lái),可以避免時(shí)間延遲的問(wèn)題,也可以用強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的方式,讓裝置執(zhí)行的過(guò)程可以一邊作為下一次改善的參考,若這次做錯(cuò)了,可以把錯(cuò)誤的訊息送回到中心的「大腦」調(diào)整演算法,再迅速地部署新版本的演算法到各個(gè)邊緣。
此外,他補(bǔ)充,若某個(gè)端點(diǎn)裝置發(fā)生例外情況,也可以將資訊送回中心,進(jìn)而改善,這樣一來(lái),未曾發(fā)生狀況的端點(diǎn)也可以了解到可能發(fā)生的問(wèn)題,若有狀況則可以快速反應(yīng)。