技術(shù)特點(diǎn)如下:
1、結(jié)構(gòu)化&非結(jié)構(gòu)化統(tǒng)一處理
2、數(shù)據(jù)采集清洗同步
3、分布式內(nèi)存處理
4、多種數(shù)據(jù)災(zāi)備方式
5、高并發(fā)、大吞吐、高可靠
6、數(shù)據(jù)實(shí)時(shí)處理不落地
7、100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫(kù)環(huán)境
核心功能如下:
1、語(yǔ)義模型管理
語(yǔ)義模型管理的目標(biāo)是,盡量降低成熟語(yǔ)義模型開(kāi)發(fā)工作量,降低模型開(kāi)發(fā)過(guò)程中的交易成本,平滑學(xué)習(xí)曲線。助推語(yǔ)義能力開(kāi)發(fā)技術(shù)的推廣。
其中,模型從需求采集、語(yǔ)料搜集、標(biāo)簽/標(biāo)注、模型網(wǎng)絡(luò)搭建設(shè)計(jì)、模型訓(xùn)練、驗(yàn)證、發(fā)布可形成一個(gè)流水線管理模式。
(1)樣本管理
樣本管理負(fù)責(zé)采集、維護(hù)、管理領(lǐng)域類標(biāo)簽、標(biāo)注完成的樣本集。提供按標(biāo)簽體系,按項(xiàng)目,按場(chǎng)景等多維管理功能。
。2)模型管理
模型訓(xùn)練管理負(fù)責(zé)承載既有算法模板管理復(fù)用,算法模型參數(shù)調(diào)優(yōu),多算法模型對(duì)比等功能。同時(shí)承擔(dān)模型存檔、維護(hù)等功能。
。3)模型指標(biāo)驗(yàn)證
驗(yàn)證、測(cè)試管理承擔(dān)各類模型有效性驗(yàn)證,各參數(shù)指標(biāo)測(cè)試等功能,同時(shí)提供模擬各落地場(chǎng)景測(cè)試環(huán)境的能力。提供功能性測(cè)試和非功能性測(cè)試環(huán)境管理。
2、數(shù)據(jù)匯聚與流式處理
平臺(tái)利用Dataexchange數(shù)據(jù)流水線的方式對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)及批量抽取數(shù)據(jù)、清洗、轉(zhuǎn)換、過(guò)濾等流式處理,支持文件、數(shù)據(jù)庫(kù)、數(shù)倉(cāng)、網(wǎng)絡(luò)、日志、大數(shù)據(jù)平臺(tái)等幾乎所有數(shù)據(jù)源及數(shù)據(jù)格式。
。1)操作簡(jiǎn)便:
一鍵部署,開(kāi)箱即用,無(wú)需專業(yè)技術(shù)背景,簡(jiǎn)單易學(xué),普通業(yè)務(wù)人員即可操作,降低使用及維護(hù)成本。
(2)多種數(shù)據(jù)采集適配接口:
Oracle、SQLServer、MySQL、DB2、PostgreSQL數(shù)據(jù)庫(kù)適配器;Oracle日志采集適配器;Hadoop/HDFS/HBase/Kafka/Spark、MongoDB、Redis、TCP/UDP等多種采集適配器。
。3)更好的兼容性,開(kāi)發(fā)門檻低:
100%兼容現(xiàn)有Hadoop環(huán)境和傳統(tǒng)數(shù)據(jù)庫(kù)環(huán)境,無(wú)需用戶在流計(jì)算框架上進(jìn)行編程開(kāi)發(fā)工作,提供了SQL語(yǔ)義的流數(shù)據(jù)分析功能,降低了使用門檻。
高并發(fā)、大吞吐、高可靠
數(shù)據(jù)傳輸可按照優(yōu)先級(jí)任務(wù)調(diào)度、支持定時(shí)批量、實(shí)時(shí)批量數(shù)據(jù)傳輸,具有大吞吐、高并發(fā)、集群化、高可靠等特點(diǎn)。
(4)數(shù)據(jù)實(shí)時(shí)處理不落地:
數(shù)據(jù)處理過(guò)程不落地,降低存儲(chǔ)開(kāi)銷數(shù)據(jù)實(shí)時(shí)計(jì)算,實(shí)時(shí)處理。
3、數(shù)據(jù)匯聚與流式處理
可完成所有的數(shù)據(jù)采集、傳輸、復(fù)制、預(yù)處理、融合和內(nèi)存計(jì)算功能;采集來(lái)自各種數(shù)據(jù)庫(kù)、消息系統(tǒng)、網(wǎng)站、移動(dòng)設(shè)備、物聯(lián)網(wǎng)等數(shù)據(jù);內(nèi)置計(jì)算平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行實(shí)時(shí)清洗和計(jì)算分析;分析后的數(shù)據(jù)結(jié)果可實(shí)時(shí)呈現(xiàn)在用戶分析中心。
4、數(shù)據(jù)對(duì)象分析
針對(duì)對(duì)象、屬性和方法利用關(guān)系流對(duì)其中的關(guān)聯(lián)關(guān)系進(jìn)行配置。對(duì)象做為屬性與方法的載體,屬性與方法進(jìn)行關(guān)聯(lián),同時(shí)繼承面向?qū)ο蟮乃枷,屬性也可以關(guān)聯(lián)其他對(duì)象,通過(guò)關(guān)系流配置映射業(yè)務(wù)場(chǎng)景,可以根據(jù)不同的業(yè)務(wù)場(chǎng)景,定義不同的分析對(duì)象。
。1)對(duì)象管理
對(duì)象管理是以抽象的概念來(lái)支持業(yè)務(wù)的定義,以庫(kù)的形式來(lái)進(jìn)行承載,每一個(gè)對(duì)象都是一個(gè)業(yè)務(wù)的轉(zhuǎn)化,將業(yè)務(wù)以對(duì)象的概念進(jìn)行抽象的實(shí)現(xiàn);同時(shí)對(duì)象也是屬性與方法的載體,以對(duì)象實(shí)體表的身份存在。
(2)屬性管理
屬性以獨(dú)立的形式存在,可以通過(guò)配置與對(duì)象和方法進(jìn)行組合,屬性代表業(yè)務(wù)場(chǎng)景的一個(gè)元數(shù)據(jù),屬性通過(guò)關(guān)聯(lián)方法提取的內(nèi)容做為元數(shù)組的值。
(3)方法管理
方法實(shí)際指的就是提取數(shù)據(jù)的功能實(shí)現(xiàn),以庫(kù)的形式存在,包含算法和功能方法兩部分,算法目前是指面向NLP領(lǐng)域的算法,方法主要是數(shù)據(jù)查詢、處理功能的方法;方法可以獨(dú)立使用也可以與對(duì)象、屬性進(jìn)行關(guān)聯(lián)。