獲取高品質(zhì)、可用資料是影響人工智能發(fā)展的一個重要因素。即使人工智能正享受著聚光燈下的時刻,大數(shù)據(jù)領(lǐng)域內(nèi)的創(chuàng)新對人工智能技術(shù)的持續(xù)發(fā)展變得比以往更加重要。
第三階段人工智能中的資料完整性
人工智能發(fā)展的歷程可以分為三個階段。第一階段人工智能的特點是優(yōu)化和“知識工程”程式,它幫現(xiàn)實世界的問題找到了有效的解決方案。第二階段人工智能的特點是機(jī)器學(xué)習(xí)程式,立基于統(tǒng)計概率的自動模式識別,F(xiàn)在,我們已經(jīng)進(jìn)入了人工智能的第三階段:假設(shè)生成程式,或稱“上下文正;”。第三階段人工智能程式有能力檢查巨大的資料集,識別統(tǒng)計模式,并創(chuàng)建解釋模式存在的演算法。
近年來,人工智能專案在復(fù)雜資料集的分析能力上有了長足的進(jìn)步,并產(chǎn)生了新的洞察力--甚至是那些跳脫人類分析家的洞察力。當(dāng)IBM機(jī)器人「華生」(Watson)在美國電視益智問答節(jié)目「Jeopardy!」擊敗人類競爭者時,它使用了先進(jìn)的自然語言處理和廣泛的常識。
制藥公司,如嬌生公司和默克藥廠已經(jīng)開始投資在類似于第三階段的AI技術(shù),以獲得超越競爭對手的優(yōu)勢。制藥公司采用這種技術(shù)已有重大發(fā)現(xiàn),如雷諾氏病患與魚油之間的關(guān)系。人工智能還有可能透過減少昂貴和耗時的錯誤,戲劇化地加速藥物開發(fā)過程。
當(dāng)然,AI也遭受了幾次高度公開的失敗。許多這些失敗的原因,如IBM「華生」和休斯敦安德森癌癥研究中心(MD Anderson Cancer Center),在人工智能領(lǐng)域是一個相當(dāng)突出的問題:資料集的完整性。在華生的案例中,當(dāng)安德森癌癥研究中心改變其電子病歷軟體系統(tǒng),華生就無法與新資料庫互動,需要額外整合才有辦法運作。
全要靠資料
如果不能獲取可進(jìn)行分析和產(chǎn)生洞察力所需的資料,那么無論人工智能和機(jī)器學(xué)習(xí)演算法再怎么進(jìn)步也是于事無補(bǔ)的。
由于生物資料集的深度、密度和多樣性等因素,使得生命科學(xué)資料集是眾所周知的不足且難以處理。因此,生物研究在很大程度上須依賴手工策劃的資料集,必須創(chuàng)建和清理,以測試人工設(shè)想的假說。在這一高度手動的過程中所涉及的工作提高了研究成本和生物醫(yī)學(xué)產(chǎn)品的成本,如疫苗和生物技術(shù)。這一過程的耗時性意味著在學(xué)術(shù)期刊上發(fā)表結(jié)論時它們可能已經(jīng)過時了。
在這種緩慢、低效和容易出錯的方式下創(chuàng)建和分析生物資料集,研究人員無意中造成了一個巨大的問題,即出版物的偏差和醫(yī)學(xué)資料的不精確性。
有偏見和有缺陷的資料集是第一和第二階段AI程式的一個問題,但是第三階段AI軟體受這些限制的影響最大。例如,在醫(yī)學(xué)術(shù)語中縮寫的問題。一個縮寫經(jīng)常有各種各樣的意思-“Ca”,根據(jù)它的上下文,可能意味“癌癥”或“鈣”。第三階段AI程式依賴復(fù)雜的上下文資訊來執(zhí)行,而雜亂的、手工策劃的資料集降低了這些程式的有效性。
資料的改變
美國國會甫于今年(2009年)2月所通過的「經(jīng)濟(jì)與臨床健康資訊科技法」(The Health Information Technology for Economic and Clinical Health Act, HITECH)開創(chuàng)了無處不在的電子病歷系統(tǒng)的時代。因此,現(xiàn)在有了豐富的資料集,包含即時、全面的生物資訊。這些新的資料集正在與生物專利、臨床試驗、立法機(jī)構(gòu)、學(xué)術(shù)論文以及創(chuàng)新生態(tài)系統(tǒng)中的其他來源一起結(jié)合,以創(chuàng)造復(fù)雜的生物資料池。
直到最近,由于人類在很大程度上的努力清理和組織資料使得這種大量的非結(jié)構(gòu)化資料才對計算程式有用。但現(xiàn)在,AI現(xiàn)在已經(jīng)進(jìn)步到足以使用先進(jìn)的演算法分析異構(gòu)資料并結(jié)合機(jī)器學(xué)習(xí)、自然語言處理和先進(jìn)的文本分析。我們已經(jīng)從一個過時的、不完整的、不可獲取的資料世界進(jìn)入了一個新的模式,AI可以構(gòu)造以前非結(jié)構(gòu)化的資料來進(jìn)行即時分析和上下文正;。
第三階段AI為我們提供了干凈、集中的資料,反映了生物系統(tǒng)的復(fù)雜性。透過分析這些資料,我們可以深入了解當(dāng)前的生物醫(yī)學(xué)環(huán)境。