欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁 > 新聞 > 國內(nèi) >

寶德云服務(wù)器搭建云服務(wù)數(shù)據(jù)中心

2013-01-18 10:15:36   作者:   來源:CTI論壇   評論:0  點擊:


  CTI論壇(ctiforum)1月18日消息(記者 郭佳):隨著互聯(lián)網(wǎng)的日益普及,安徽某大學(xué)科技園的各類信息和服務(wù)需求在很大程度上已經(jīng)可以通過互聯(lián)網(wǎng)數(shù)據(jù)的采集分析來完成。根據(jù)CNNIC今年的最新統(tǒng)計,中國現(xiàn)已有網(wǎng)民4.85億,各類站點域名130余萬個,據(jù)市場研究機構(gòu)eMarketer估計,2013年中國網(wǎng)民將增會達(dá)到8.4億人,互聯(lián)網(wǎng)已經(jīng)成為匯聚各類企事業(yè)組織動態(tài)和社情民意的最大平臺。在國外,甚至包括CIA這樣的情報機構(gòu)已有70%的情報來源于互聯(lián)網(wǎng)上的開放數(shù)據(jù)分析,但面對網(wǎng)上海量信息,單純依靠人工進(jìn)行處理已不可能,引入智能化的軟件工具勢在必行。

  另一方面,云計算作為一種新興的共享基礎(chǔ)架構(gòu)的方法,物理形態(tài)通常為大型的服務(wù)器集群,包括計算服務(wù)器、存儲服務(wù)器、寬帶資源等,它可以將大的系統(tǒng)池連接在一起以提供各種IT服務(wù),并由軟件實現(xiàn)自動管理,無需人為參與,用戶在享用服務(wù)時猶如打開水龍頭接水一樣方便簡潔的享受信息服務(wù),而不必關(guān)心后臺的技術(shù)有多復(fù)雜。由于云計算具有普適、方便、可用性強等一系列的優(yōu)勢,正在受到越來越多的關(guān)注,并呈現(xiàn)出廣闊的市場前景。作為服務(wù)上百家企業(yè)的園區(qū),通過云服務(wù)的方式為上百家在孵企業(yè)提供信息服務(wù)支持便成了一種必然的選擇。

  為了滿足園區(qū)在招投標(biāo),行業(yè)資訊,競爭情報,最新政策等方面的信息需求,寶德設(shè)計并實現(xiàn)了情報云服務(wù)平臺,初期要達(dá)到的技術(shù)指標(biāo)有:

  1. 50,000以上重點網(wǎng)站(更新頻率在5分鐘以內(nèi))的采集和檢索,普通網(wǎng)站支持在400,000以上,支持媒體包括新聞,論壇,博客,微博,圖片和視頻等。其中網(wǎng)頁索引量不低于2億(不含微博)。
  2. 除了支持存儲靜態(tài)網(wǎng)頁快照文件外,還應(yīng)支持新聞和論壇中出現(xiàn)的圖片存儲和部分視頻的存儲,其中靜態(tài)html文件存儲量不低于2億,圖片存儲量不低于1億。
  3. 在10,000個并發(fā)用戶的情況下,單次查詢數(shù)據(jù)庫響應(yīng)時間小于0.1s,單次索引查詢響應(yīng)時間小于0.2s。

  為實現(xiàn)上述技術(shù)指標(biāo),搭建云計算數(shù)據(jù)計算中心,實現(xiàn)海量信息的采集,存儲,分析和檢索。該數(shù)據(jù)中心是云服務(wù)平臺運行的軟硬件環(huán)境,數(shù)據(jù)中心的建設(shè)滿足系統(tǒng)運行的基本要求。根據(jù)平臺的業(yè)務(wù)和數(shù)據(jù)計算中心建設(shè)的一般規(guī)律,寶德從云設(shè)備選型特制定本方案。

  一、業(yè)務(wù)需求分析

\

科技園互聯(lián)網(wǎng)情報采集與智能分析系統(tǒng)架構(gòu)

  情報管理和規(guī)劃

  根據(jù)該大學(xué)科技園的實際情況,需要系統(tǒng)采用靈活的情報分類體系定義方式,以方便科技園靈活定義情報需求。為此,需要預(yù)先規(guī)劃欲收集情報的行業(yè),欲采集的主題。系統(tǒng)能根據(jù)園區(qū)訴求會生產(chǎn)網(wǎng)站采集頻道,并確定信息采集源。

  信息采集

  由于園區(qū)采集的信息涉及面廣,因而需要系統(tǒng)支持多種信息源的采集,除了包括論壇,博客,新聞,政府門戶網(wǎng)站等靜態(tài)網(wǎng)頁信息,還應(yīng)包含一些政策法規(guī)文件的電子文檔(如pdf,doc,xls,ppt等),培訓(xùn)用視頻和圖片文件等。需要系統(tǒng)能夠提供異構(gòu)信息整合工具,將非結(jié)構(gòu)化信息結(jié)構(gòu)化,轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式進(jìn)行存儲,對外能提供統(tǒng)一的查詢和統(tǒng)計接口。

  信息自動分類

  大學(xué)科技園需加工和處理的信息類型多樣,包括政策法規(guī)信息,競爭對手信息,園區(qū)內(nèi)部信息,輿情口碑信息,創(chuàng)業(yè)培訓(xùn)資源,如何對這些資源進(jìn)行分類管理,有序使用,是一個迫切需要解決的問題,為此平臺應(yīng)集成信息自動分類功能,能將自動歸類后,形成不同頻道,便于園區(qū)進(jìn)行查詢和歸檔。除此之外,系統(tǒng)還應(yīng)該提供分類規(guī)則定義工具和自動訓(xùn)練器,用戶可以自定義分類主題和分類規(guī)則,進(jìn)行靈活分類;系統(tǒng)還集成分類訓(xùn)練器功能,用戶指定類別和訓(xùn)練樣本后,自動生成訓(xùn)練模型進(jìn)行分類預(yù)測。

  自動排重

  互聯(lián)網(wǎng)存在大量重復(fù)信息,如果能對這些重復(fù)信息進(jìn)行自動判定,那么為情報人員節(jié)約大量時間,系統(tǒng)排重除了能夠支持url的排重外,還能支持內(nèi)容排重功能,能抽取文檔的特征詞,設(shè)定內(nèi)容相似度閾值,來調(diào)整排重的召回率和準(zhǔn)確率。

  自動摘要

  摘要是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻(xiàn)重要內(nèi)容的短文。如果計算機程序能根據(jù)文章的外在特征抽取能夠表達(dá)其中心意思的原文部分句子作為摘要,那么將會大大大幅情報人員的工作效率。系統(tǒng)能輸出反映文章大意的靜態(tài)摘要,基于用戶查詢輸出反映查詢意圖的動態(tài)摘要。

  主題跟蹤

  系統(tǒng)能夠根據(jù)用戶定義的主題進(jìn)行相似主題的檢測,并形成專題聚焦,能夠自動發(fā)現(xiàn)新聞和帖子的源頭,記錄轉(zhuǎn)載順序,并跟蹤,預(yù)測主題未來的發(fā)展趨勢。

  信息自動的發(fā)布

  系統(tǒng)可以基于用戶設(shè)置的模板自動生成簡報,簡報支持多種媒體信息,包括圖片,表格,文字等。

  通過手機客戶端或PC能瀏覽系統(tǒng)自動生成的網(wǎng)站頻道,查看競爭情報或輿情信息,對于危機輿情和敏感信息,系統(tǒng)能夠自動預(yù)警。

  用戶也可以根據(jù)多種查詢條件,查詢感興趣的信息。

  二、配置方案

  根據(jù)業(yè)務(wù)的分析主要選定的云設(shè)備包括服務(wù)器,存儲設(shè)備,網(wǎng)絡(luò)設(shè)備等。服務(wù)器的類型定為機架式服務(wù)器。機架式服務(wù)器被安裝在標(biāo)準(zhǔn)的機柜中,占用的空間小,便于管理和維護(hù)。根據(jù)功能需要,需要配置以下幾種服務(wù)器。

  信息采集服務(wù)器

  為了保證信息采集的及時性,需要進(jìn)行多線程并發(fā)下載,同時要進(jìn)行下載調(diào)度,反垃圾等,對網(wǎng)絡(luò)帶寬,網(wǎng)卡和CPU處理速度要求較高。考慮到該機器需要根據(jù)數(shù)據(jù)規(guī)模進(jìn)行水平擴展,故選擇成本較低,易擴展的PC服務(wù)器。適合做下載服務(wù)器的機器PR1280R配置為:內(nèi)存8GDDR3,CPU為至強E32.3Ghz4核。網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G。

  存儲和分析服務(wù)器

  主要用于構(gòu)建分布式文件系統(tǒng),實現(xiàn)對快照,圖片的分布式存取。對硬盤容量和磁盤讀取速度有要求。另外該集群也可以通過離線或在線分布式計算實現(xiàn)數(shù)據(jù)分析。根據(jù)業(yè)務(wù)情況,選擇易擴展,容量擴充相對便宜的PC服務(wù)器。適合做存儲和分析服務(wù)器的機器PR1280R配置為:內(nèi)存4GDDR3;CPU至強E32.3Ghz4核;網(wǎng)卡選用千兆雙網(wǎng)卡。硬盤容量2T。該機器配置同采集服務(wù)器基本相同,但硬盤容量為2T。

  數(shù)據(jù)庫服務(wù)器

  主要用于存儲用戶設(shè)置信息,組信息,規(guī)則,使用記錄,站點和監(jiān)控詞信息等。同時作為緩存服務(wù)器,緩存用戶頻繁訪問的信息。適合做數(shù)據(jù)庫服務(wù)器的服務(wù)器PR2310R配置為:內(nèi)存16GDDR3,支持最大內(nèi)存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500GSATA。

  檢索服務(wù)器

  用于存儲索引文件,對外提供數(shù)據(jù)快速檢索服務(wù),對CPU,內(nèi)存都有較高要求。適合做檢索服務(wù)器PR2310R的配置為:內(nèi)存24GDDR3,支持最大內(nèi)存48G,CPU為2*Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為3T(3*1T)。

  Web服務(wù)器

  面向外部用戶,提供web服務(wù),包括面向用戶的應(yīng)用,包括信息門戶,簡報,查詢和預(yù)警等。還能為管理提供后臺管理的功能。適合做web服務(wù)器PR1310R的配置為:內(nèi)存8GDDR3,支持最大內(nèi)存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為1TSATA。

分享到: 收藏

專題