基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設(shè)

字體 2017-04-14 14:00:23
     來源: 中國水務(wù)論壇在線  

隨著信息技術(shù)在水利行業(yè)應(yīng)用的日趨廣泛,水利信息化采集、分析、業(yè)務(wù)處理等方面產(chǎn)生的數(shù)據(jù)量急劇膨脹,現(xiàn)代水利數(shù)據(jù)中心的建設(shè)需求隨之變得更加迫切。利用大數(shù)據(jù)技術(shù),可高效的存儲和處理水文、水利工程監(jiān)測等長系列數(shù)據(jù)以及文檔、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。本文通過總結(jié)水利大數(shù)據(jù)的特點(diǎn)以及大數(shù)據(jù)架構(gòu)、實(shí)時(shí)數(shù)據(jù)處理和元數(shù)據(jù)等關(guān)鍵技術(shù),提出基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)相結(jié)合的、支持實(shí)時(shí)計(jì)算和元數(shù)據(jù)管理的水利數(shù)據(jù)中心架構(gòu)。 

隨著信息化技術(shù)的迅猛發(fā)展,越來越多的水利信息化基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng),被應(yīng)用到水利工程建設(shè)與管理、水行政業(yè)務(wù)處置等領(lǐng)域中。由此產(chǎn)生的數(shù)據(jù)量指數(shù)攀升,引發(fā)了水利數(shù)據(jù)中心建設(shè)的熱潮。與此同時(shí),隨著整個(gè)社會(尤其是互聯(lián)網(wǎng)上)的信息量呈爆炸性增長態(tài)勢,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。大數(shù)據(jù)技術(shù)是一場技術(shù)革命,時(shí)刻改變著我們的生活、工作和思維方式。將大數(shù)據(jù)技術(shù)引入水利行業(yè),將其作為水利數(shù)據(jù)中心建設(shè)的基礎(chǔ)技術(shù),成為一種必然的趨勢。 

水利信息化涵蓋水利工程勘測、規(guī)劃、設(shè)計(jì)、施工、運(yùn)行管理和維護(hù),防洪、水資源管理、水土保持等水行政管理等諸多方面。水利數(shù)據(jù)形式多樣、種類繁多,數(shù)據(jù)總量龐大且持續(xù)高速增長。例如,近年來監(jiān)測設(shè)備種類及數(shù)量增多,監(jiān)測數(shù)據(jù)跨地區(qū)上傳頻率加快,使得采集監(jiān)測數(shù)據(jù)量急劇上升;在防洪管理業(yè)務(wù)中,應(yīng)用水文模型預(yù)報(bào)、推演、調(diào)度而產(chǎn)生的數(shù)據(jù)量也正迅猛增長;視頻、圖像和文檔等非結(jié)構(gòu)化數(shù)據(jù)大量累計(jì),難以采用關(guān)系型數(shù)據(jù)庫存儲與管理。在管理和應(yīng)用層面上,用戶已不滿足于數(shù)據(jù)存儲和管理碎片化的現(xiàn)狀,提出了高效管理和共享的要求。如何存儲、傳輸、處理和應(yīng)用水利大數(shù)據(jù),已成為水利信息化發(fā)展必須面對的問題和挑戰(zhàn)。 

根據(jù)水利信息化規(guī)劃要求,水利數(shù)據(jù)中心建設(shè)的目的是全面整合分散的各類水利信息資源,實(shí)現(xiàn)信息共享,并對數(shù)據(jù)進(jìn)行深度挖掘,以滿足水利業(yè)務(wù)和事務(wù)發(fā)展需要。其中解決的主要問題包括:分布各處的水利數(shù)據(jù)到水利數(shù)據(jù)中心的實(shí)時(shí)匯集,海量水利數(shù)據(jù)的集中存儲,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,以及有效的數(shù)據(jù)分析和挖掘等。 

本文在總結(jié)了水利大數(shù)據(jù)特征的基礎(chǔ)上,分析了解決以上問題的關(guān)鍵技術(shù),并提出了在傳統(tǒng)水利數(shù)據(jù)中心的基礎(chǔ)上,利用大數(shù)據(jù)技術(shù)建設(shè)現(xiàn)代水利數(shù)據(jù)中心的思路及架構(gòu)。 

當(dāng)前,大數(shù)據(jù)的概念已經(jīng)形成,但尚缺乏統(tǒng)一的定義。麥肯錫認(rèn)為,大數(shù)據(jù)是“無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合”;Gartner認(rèn)為,大數(shù)據(jù)是“需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”。而判別大數(shù)據(jù)的主流標(biāo)準(zhǔn)是其是否具備“4V”特征:①(Volumn)大容量,存儲空間大,計(jì)算量大;②(Variety)多樣性,來源多,格式多;③(Velocity)快速,增長速度快,處理速度快;④(Value)價(jià)值,數(shù)據(jù)中包含著有價(jià)值的信息。 

水利信息化長期的業(yè)務(wù)實(shí)踐積累了大量分布異構(gòu)獨(dú)立的業(yè)務(wù)數(shù)據(jù)。遙感、GIS、傳感網(wǎng)和射頻技術(shù)等現(xiàn)代化信息化術(shù)的發(fā)展與應(yīng)用,全面拓展了水利信息的空間尺度和要素類型。水利數(shù)據(jù)已逐漸呈現(xiàn)出多源、多維、大量和多態(tài)的大數(shù)據(jù)特性。在經(jīng)過大量調(diào)研基礎(chǔ)上,水利大數(shù)據(jù)的特征概括為以下5點(diǎn),①數(shù)據(jù)量大:水利數(shù)據(jù)量在數(shù)百TB或PB以上;②來源及形式多樣:包括勘測、規(guī)劃、設(shè)計(jì)、施工、管理等多種來源,以及長系列的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和大量非結(jié)構(gòu)化數(shù)據(jù);③持續(xù)增長:在水利行業(yè)各領(lǐng)域和環(huán)節(jié)的信息化應(yīng)用不斷增加,監(jiān)測密度及指標(biāo)不斷提升,數(shù)據(jù)增加速度不斷加快;④數(shù)據(jù)價(jià)值高:水利數(shù)據(jù)是水利工程建設(shè)、管理及水行政業(yè)務(wù)處置的依據(jù),蘊(yùn)含較高的價(jià)值;⑤實(shí)時(shí)或準(zhǔn)實(shí)時(shí)要求:部分水利數(shù)據(jù)(如水利工程安全監(jiān)測、地質(zhì)監(jiān)測等)是判別應(yīng)急事件的依據(jù),存在實(shí)時(shí)或準(zhǔn)實(shí)時(shí)處理的需求。 

為解決水利大數(shù)據(jù)集中存儲以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理的問題,可利用關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)結(jié)合的方式應(yīng)對。ApacheHadoop作為Apache2.0許可協(xié)議發(fā)布的開源軟件框架,不僅能夠支持大數(shù)據(jù)密集型分布式存儲,而且具備強(qiáng)大的批量數(shù)據(jù)處理和分析能力,常被用于進(jìn)行離線數(shù)據(jù)的存儲與分析,作為關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的補(bǔ)充。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和GFS(Google檔案系統(tǒng))的論文自行實(shí)現(xiàn)而成,與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的比較。

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設(shè)
Hadoop與傳統(tǒng)關(guān)系型數(shù)據(jù)庫對比表

Hadoop框架透明地為應(yīng)用提供大數(shù)據(jù)存儲和訪問的可靠性及數(shù)據(jù)自動化分布與移動。首先,Hadoop實(shí)現(xiàn)了名為MapReduce的編程范式,將應(yīng)用程序分割成許多小部分,每個(gè)部分都能在集群中的任意節(jié)點(diǎn)上執(zhí)行或重新執(zhí)行;其次,Hadoop提供了HDFS分布式文件系統(tǒng),用于存儲所有計(jì)算節(jié)點(diǎn)的數(shù)據(jù),為整個(gè)集群帶來了非常高的數(shù)據(jù)帶寬。MapReduce編程范式和HDFS分布式文件系統(tǒng)的設(shè)計(jì),使整個(gè)框架能夠自動處理節(jié)點(diǎn)故障。除了MapReduce和HDFS分布式文件系統(tǒng),Hadoop架構(gòu)中采用Zookeeper提供集群內(nèi)的協(xié)調(diào)管理服務(wù),使用HBase列式數(shù)據(jù)庫存儲與管理數(shù)據(jù),通過Pig、Hive、Mahout實(shí)現(xiàn)數(shù)據(jù)挖掘分析。 

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設(shè)
Hadoop架構(gòu)圖 

在水利數(shù)據(jù)中心中,可通過Hadoop分布式文件系統(tǒng)存儲歷史監(jiān)測數(shù)據(jù)、視頻、圖片、文件等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并利用MapReduce批量計(jì)算處理歷史監(jiān)測數(shù)據(jù),提供對監(jiān)測數(shù)據(jù)的分析挖掘和模型計(jì)算。  

在水利業(yè)務(wù)應(yīng)用中,涉及大量對實(shí)時(shí)數(shù)據(jù)的處理,如雨水情、工情、水資源等監(jiān)測數(shù)據(jù)和視頻監(jiān)控?cái)?shù)據(jù)等,對應(yīng)急事件的預(yù)警及決策處置意義重大。為實(shí)現(xiàn)大數(shù)據(jù)流的實(shí)時(shí)處理,可在水利數(shù)據(jù)中心架構(gòu)中加入Storm實(shí)時(shí)計(jì)算框架。 

與Hadoop擅長于存儲處理離線數(shù)據(jù)不同,Storm的數(shù)據(jù)源可以是不斷更新的,即收到一條數(shù)據(jù)便處理一條。通過Storm提供可靠地處理無限的數(shù)據(jù)流的能力,可實(shí)時(shí)處理Hadoop的批任務(wù),同時(shí)實(shí)現(xiàn)視頻流的實(shí)時(shí)處理以及專業(yè)模型的實(shí)時(shí)計(jì)算。 

元數(shù)據(jù)是關(guān)于“數(shù)據(jù)的數(shù)據(jù)”,對數(shù)據(jù)進(jìn)行描述,這些描述涉及基礎(chǔ)屬性(例如,結(jié)構(gòu)和行為)、業(yè)務(wù)定義(包括字典和分類法)以及操作(如活動指標(biāo)和使用歷史)等特征。對于水利數(shù)據(jù)而言,元數(shù)據(jù)是對水利各種信息描述的數(shù)據(jù)。在水利數(shù)據(jù)中心中,應(yīng)建設(shè)元數(shù)據(jù)管理維護(hù)系統(tǒng),實(shí)現(xiàn)元數(shù)據(jù)實(shí)體維護(hù),負(fù)責(zé)元數(shù)據(jù)的抽取與整合,形成對關(guān)系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中存儲的各種監(jiān)測數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、視頻、圖像等數(shù)據(jù)的數(shù)據(jù)字典。在關(guān)系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中的數(shù)據(jù)進(jìn)行變化時(shí),元數(shù)據(jù)管理維護(hù)系統(tǒng)負(fù)責(zé)實(shí)現(xiàn)元數(shù)據(jù)及時(shí)自動更新。 

當(dāng)前,水利數(shù)據(jù)中心主要采用關(guān)系型數(shù)據(jù)庫組織和管理結(jié)構(gòu)化數(shù)據(jù);地理空間數(shù)據(jù)的組織管理亦在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)上擴(kuò)展實(shí)現(xiàn);半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫管理目錄加文件存儲方式組織管理。對于水利大數(shù)據(jù)的存儲與應(yīng)用需求,現(xiàn)有架構(gòu)在數(shù)據(jù)存儲、處理和分析挖掘等方面存在瓶頸。為此,本文提出了基于大數(shù)據(jù)的水利數(shù)據(jù)中心架構(gòu),包括數(shù)據(jù)匯集、數(shù)據(jù)存儲、數(shù)據(jù)處理分析以及數(shù)據(jù)應(yīng)用四個(gè)層次。 

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設(shè)
大數(shù)據(jù)水利數(shù)據(jù)中心建設(shè)架構(gòu)圖 

(1)數(shù)據(jù)匯集 

水利數(shù)據(jù)中心需對不同來源的異構(gòu)數(shù)據(jù)進(jìn)行匯集,主要包括上報(bào)采集數(shù)據(jù)、其他系統(tǒng)節(jié)點(diǎn)數(shù)據(jù)以及與其他領(lǐng)域交換的數(shù)據(jù)。上報(bào)采集數(shù)據(jù)主要為實(shí)時(shí)監(jiān)測數(shù)據(jù),可采取設(shè)備直連或現(xiàn)場服務(wù)器轉(zhuǎn)發(fā)的形式接入;其他系統(tǒng)節(jié)點(diǎn)數(shù)據(jù)指水利業(yè)務(wù)范疇內(nèi)已建成的應(yīng)用系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)的定時(shí)或不定時(shí)接入;其他領(lǐng)域交換數(shù)據(jù)指其他行業(yè)與水利相關(guān)的數(shù)據(jù),如國土、氣象等數(shù)據(jù),通過定義好的接口或連接接入。 

(2)數(shù)據(jù)存儲 

本文提出的水利數(shù)據(jù)中心架構(gòu)將關(guān)系型數(shù)據(jù)和分布式文件系統(tǒng)融合,共同支撐水利大數(shù)據(jù)的存儲。實(shí)時(shí)的、結(jié)構(gòu)化的監(jiān)測及業(yè)務(wù)處置數(shù)據(jù)和元數(shù)據(jù)利用關(guān)系型數(shù)據(jù)庫存儲,而歷史監(jiān)測數(shù)據(jù)、文檔數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),可存儲在Hadoop分布式文件系統(tǒng)中。兩種存儲方式并非獨(dú)立存在,可采用數(shù)據(jù)抽取轉(zhuǎn)換及裝載工具(ETL)相互補(bǔ)充。 

在水利數(shù)據(jù)中心,通過元數(shù)據(jù)庫存儲對水利數(shù)據(jù)中心中所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的描述和定義,利用元數(shù)據(jù)技術(shù)定義并統(tǒng)一管理系統(tǒng)元數(shù)據(jù),為系統(tǒng)提供更高的可用性與易用性。 

(3)數(shù)據(jù)處理分析 

水利大數(shù)據(jù)分析是根據(jù)主題化應(yīng)用的需求進(jìn)行數(shù)據(jù)處理分析,需應(yīng)用并行計(jì)算或云計(jì)算體系下的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等技術(shù)。存儲于Hadoop中的海量水利數(shù)據(jù),可以通過MapReduce實(shí)現(xiàn)數(shù)據(jù)分析計(jì)算。MapReduce將一個(gè)大數(shù)據(jù)集分解成多個(gè)獨(dú)立的小數(shù)據(jù)段,分發(fā)到多個(gè)節(jié)點(diǎn)上進(jìn)行快速、高效的并行計(jì)算,可有效解決單機(jī)處理中計(jì)算性能不足的難題。Hadoop的開源工具Hive基于MapReduce,提供了一套類似于數(shù)據(jù)庫的數(shù)據(jù)存儲和處理機(jī)制,將海量半結(jié)構(gòu)化數(shù)據(jù)映射為表,并自動化產(chǎn)生MapReduce任務(wù),對存儲的數(shù)據(jù)進(jìn)行處理。通過Hive提供的接口,可以有效的降低應(yīng)用系統(tǒng)功能開發(fā)難度和對MapReduce作業(yè)的使用難度。 

對于水利數(shù)據(jù),還存在需要實(shí)時(shí)計(jì)算處理顯示的實(shí)時(shí)監(jiān)測數(shù)據(jù)。通過實(shí)時(shí)計(jì)算工具Storm處理消息和更新數(shù)據(jù)庫,快速實(shí)時(shí)計(jì)算大量的監(jiān)測數(shù)據(jù),實(shí)現(xiàn)監(jiān)測數(shù)據(jù)的實(shí)時(shí)展示、預(yù)警以及水庫調(diào)度方案的實(shí)時(shí)生成和實(shí)時(shí)視頻流的處理。 

(4)數(shù)據(jù)應(yīng)用 

針對廣泛的水利大數(shù)據(jù)應(yīng)用,可構(gòu)建大量高效的通用性或定制性服務(wù),例如:水利工程安全監(jiān)測、評估評價(jià)、運(yùn)行維護(hù)等水利工程安全管理應(yīng)用,面向防洪、發(fā)電、航運(yùn)、農(nóng)業(yè)、生態(tài)的水資源多目標(biāo)優(yōu)化調(diào)度等。通過對用戶和業(yè)務(wù)數(shù)據(jù)的分析挖掘,智能地獲取用戶最感興趣的數(shù)據(jù)指標(biāo)。同時(shí),利用水利一張圖和統(tǒng)一門戶,可通過統(tǒng)一簡潔的界面,直觀的向用戶展示各種實(shí)時(shí)和歷史信息以及分析預(yù)報(bào)的結(jié)果,以幫助用戶正確理解和應(yīng)用分析成果。 

大數(shù)據(jù)技術(shù)推動著水利數(shù)據(jù)采集、管理及應(yīng)用的迅速發(fā)展。本文提出了一種基于大數(shù)據(jù)技術(shù)的水利數(shù)據(jù)中心架構(gòu),以促進(jìn)水利大數(shù)據(jù)在獲取、管理、應(yīng)用方面的能效提升。分布式文件系統(tǒng)、實(shí)時(shí)數(shù)據(jù)處理組件的引入,可滿足多源、多結(jié)構(gòu)水利數(shù)據(jù)統(tǒng)一存儲和處理的需求。而以MapReduce為代表的大數(shù)據(jù)處理技術(shù),可突破傳統(tǒng)數(shù)據(jù)分析的視角,以截然不同的方式分析海量水利數(shù)據(jù),其成果展示方式也將隨之改變。隨著大數(shù)據(jù)技術(shù)在水利行業(yè)不斷地深入應(yīng)用,行業(yè)用戶的思維方式將迅速轉(zhuǎn)變,越來越多的應(yīng)用需求也將隨之涌現(xiàn),基于大數(shù)據(jù)技術(shù)的水利數(shù)據(jù)中心的研究范圍和深度也將得到極大的提升和拓展。 

查天氣
關(guān)注“中國天氣網(wǎng)”微信公眾號
編輯:楊興