《電子技術應用》
您所在的位置:胜负彩有什么规律 > 通信與網絡 > 設計應用 > 基于云存儲的電力全量業務數據歸集體系研究
基于云存儲的電力全量業務數據歸集體系研究
2018智能電網增刊
梁 霄,湯 寧,張 瑋
南瑞集團有限公司,江蘇 南京 211106
摘要: 目前,國家電網公司擁有海量的歷史存量數據以及不斷增長的各類實時業務信息資源,各地電力公司的數據采用關系型數據庫進行集中式存儲,難以實現數據的高效計算、挖掘。要在此基礎上實現全量業務數據歸集,對海量數據進行統一處理,數據的存儲是其中的關鍵環節?;詼栽萍撲慵際跫芄溝難芯?,提出一種基于云存儲的數據歸集體系架構,該體系可以穩定、高效地解決全量業務數據歸集過程中的海量數據存儲問題,為全量業務數據歸集提供可靠保障。
中圖分類號: TM76
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.038
Abstract:
Key words :

0  引言

    建設全量業務、全時間維度、全類型的數據中心是國家電力公司運監中心數據歸集工作的基礎,其目標的是在此基礎上為電力公司各類決策提供全面的信息支撐、高效的分析計算,以改變過去的數據冗余、重復抽取數據的局面,全面支撐電力公司大數據分析及應用。然而,由于國家電網電力公司涉及的應用系統較多,包括ERP、營銷、生產、調度等業務系統,這些系統已經累積了海量的存量數據,同時還需要考慮各類設備的實時數據采集以及復雜的外部環境數據,數據量非常龐大。要在此基礎上完成全量業務數據歸集工作,海量數據的存儲必須要解決的問題??悸塹郊寫媧⒌哪J較?,存儲容量存在瓶頸問題且開支成本巨大,因此考慮使用云存儲的模式進行海量數據的存儲[1]。

1  基于云存儲的歸集體系介紹

    云存儲是基于云計算框架衍生出的一種新概念,它是隨著海量數據存儲問題應運而生的,專注于為大數據的存儲提供解決方案。它主要通過集群技術和新興的網絡技術把大量數據存儲設備聯合在一起協同工作,并能夠對外提供統一的數據存儲與訪問的功能。云存儲是一種低成本、可擴展的網絡形式實用型服務[2]。

    目前,國家電網公司運監中心數據中心的數據不僅有海量的結構化以及非結構化存量數據,同時還有來自各個業務系統的實時采集數據,還存在國家電網數據的增長速度以及數據的保密性等問題。因此,需要在云存儲的基礎上綜合考慮國家電網大數據存儲問題的特殊性,科學合理地制定一套基于云存儲的電力全量業務數據存儲體系,從而為全量業務數據歸集提供有力支持[3]。

2  基于云存儲的電力全量業務數據歸集體系

    依據國家電網公司運監中心對全量業務數據歸集整體架構和技術路線的統一要求,首先需要將電力公司的數據接入緩沖區,隨后再逐步進行熱點數據庫、實時數據庫、數據集市、數據倉庫的建設[4]。因此,基于云存儲的數據歸集體系構架主要由以下層級組成:

    (1)存儲設備層

    存儲設備是云存儲數據歸集體系中的基礎組成部分,它位于該體系的底層,由多種存儲設備的組合使用,有用于作為緩沖區的MySQL數據庫設備以及適用于分布式架構的MongoDB,其中MongoDB可以支持海量數據的高并發、低時延的吞吐操作及部署,同時它可以支持各種復雜的數據格式,非常適合用于國家電網電力大數據的分布式存儲以及高速率讀寫[5]。

    (2)存儲引擎層

    存儲引擎主要是對數據進行基礎的管理,但卻是云存儲歸集體系的核心層。由于云存儲是基于網絡技術及應用集群協同工作的模式,因此數據的安全性、一致性以及容錯性都需要予以重點關注[6]。引擎層主要通過DHT數據分布、強一致性數據復制、數據加密、集群狀態管理、并行數據重建、集群故障自愈等技術來進行數據的管理,保證數據的一致性,安全性以及從災變中恢復的能力。

    (3)存儲服務層

    服務層主要用于提供數據訪問以及數據備份服務?;讜拼媧⒌氖莨榧逑狄笥沒П匭刖諶ú拍蓯褂帽曜嫉姆窠涌誚械鍬講⑹褂美銼叩氖葑試?,同時為了保證大量用戶登錄時的訪問速度需要使用Cache技術[7]。該層主要由分布式快照、本地化Cache、精簡配置、分級存儲、數據備份??樽槌?。

    (4)存儲接口層

    基于云存儲的電力全量業務數據歸集體系主要基于iSCSI/RBD接口協議實現。其中iSCSI是指IP協議中的SCSI指令集,它是一種開放的標準,主要使用TCP/IP協議進行指令封裝,因此基于該協議可以在任何基于IP的網絡之間進行傳播。通過使用SCSI/RBD接口協議標準可以使用戶方便地對數據進行存儲及訪問。

3  基于云存儲的數據歸集體系關鍵技術

3.1 虛擬分布式存儲技術

    虛擬存儲技術是指通過虛擬的方法,把不同的廠商、不同業務系統,不同類型,不同通信協議的存儲設備聯系起來,將體系中各個設備映射成統一的資源池,并通過虛擬方式進行數據統一管理,它可以屏蔽用于數據的物理設備位置及其異構特性,降低了數據管理及維護的成本。分布式是在虛擬技術的基礎上將分散的存儲資源映射為虛擬設備,通過多臺互聯的存儲服務器進行存儲負荷的分擔,同時通過位置服務器進行存儲信息的定位,使用該技術可以提高系統的可擴展性以及存取效率,實現云存儲數據歸集體系中不同的應用,不同的存儲設備以及不同的服務之間高效協同工作[8]。

3.2 基于重復數據刪除的數據備份技術

    隨著國家電網電力數據量的增加,數據中的冗余部分也在不斷增多,從而導致更多的存儲空間被占用,同時給數據備份工作帶來巨大的壓力。因此,重復數據的刪除是非常必要的數據壓縮技術,該技術基于刪除運算邏輯以消除數據中冗余的字節、數據塊或文件,從而保證系統中存儲的只是單一的數據,減少數據歸集體系所使用的存儲空間,增加可用存儲容量,增大數據傳輸過程中的有效數據成分。同時,考慮在原數據出錯、誤刪等情況下的數據恢復問題,數據備份技術也是歸集體系必不可少的部分,因此,經過重復數據刪除技術也間接地減少了數據備份工作的存儲量,解決了不必要的存儲空間占用問題。

3.3 數據安全技術

    用戶數據的安全性始終是備受關注的問題。數據的安全性主要是指數據泄漏、數據丟失、數據篡改等問題,在存儲架構中,通常數據距離用戶越“近”越安全,但采用云存儲的架構下,數據通常距離用戶很“遠”,因此有必要對數據采取安全?;ご朧??;讜拼媧⒌氖莨榧逑低ü罅康耐純突Ф碩韻低持械牟僮饜形幸斐<嗖?,從而能夠及時獲取網絡中的病毒、木馬程序信息,并將其推送至服務器端進行處理,隨后將病毒及木馬的解決方法發送至所有客戶端,使整個體系成為一個防御系統,從而保證了海量數據的安全。

4  基于云存儲的數據歸集體系的優勢

4.1  存儲資源利用率的提升

    虛擬化是基于云存儲的數據歸集體系的特征之一,通過這種技術可以將國家電網電力公司閑置以及利用率低的資源進行抽象并呈現,改變了計算機網絡實體結構不可切割的現狀,從而獲得更高的資源利用率,使這些資源不必受現有架構以及物理組態的限制,通過將利用率低的硬件重組,可以最大化地實現物理硬件的利用,最終達到提高整體資源利用率的目的[9]。

4.2  系統整體運行效率的提高

    基于云存儲的數據歸集體系在實現海量數據存儲的同時也實現了應用存儲。即在存儲數據的同時還實現了應用功能的存儲,該體系同時具備存儲設備和服務器的功能,因此能夠顯著地減少存儲服務器數據,并減少存儲體系中由于服務器造成的性能瓶頸問題及單點故障,從而降低系統的成本,且減少了數據傳輸過程所經歷的環節,實現了整個存儲體系的高效率運行。

4.3  系統整體安全性的加強

    基于云存儲的數據歸集體系所采取的安全技術在反病毒功能上較傳統的病毒防范策略更具優勢,由于采用大量客戶端對網狀的系統操作進行異常監測,該體系在反病毒技術競爭中往往能夠占據先機,同時由于融合了并行處理以及網格計算等新技術,可以實現快速地異常自動分析及處理,并把解決方案運用到每一個客戶端。原則上只要客戶端足夠多,就可以實現只要有新的木馬或者病毒出現,就將被立即被獲取到并進行處理,從而使整個存儲體系的安全性能得到極大的加強[10]。

4.4  系統可擴展性的開拓

    相對于傳統的存儲體系通過某個策略的執行使各個節點獲取所要執行的操作信息,基于云存儲的數據歸集體系采用松耦合非對稱架構,利用數據路徑外的元數據進行服務器的控制,這種集中控制的方式支持新層次的擴充,從而具備了以下優點:

    (1)存儲節點不需要接收來自網絡節點的驗證信息,從而將更多的資源用于提供讀寫服務。

    (2)客戶可以通過虛擬化應用實例或硬件性能實現云存儲的快速調整。

    (3)消除了節點之間由于共享大量狀態而產生的開銷以及用戶網絡互聯的需要,進一步降低了存儲體系的成本。

    (4)通過具有集中控制功能的元數據,存儲節點可以實現深層次的應用歸檔,實現資源的精細化管理。

5  結語

    針對國家電網公司運監中心全量業務數據歸集過程中所面臨的數據量大、數據類型復雜、數據更新快等問題,本文提出了一種可適用于全量業務數據歸集工作的存儲體系,該體系克服了傳統存儲體系成本高、處理速度慢、擴展性能差的問題,很好地解決了全量業務海量數據的存儲問題,同時該體系具有設備虛擬、數據安全、快速訪問以及高運行效率等優勢,因此能夠很好地滿足當下全量業務數據歸集工作的需要,對于后期可能出現的新問題,由本系統具備的高可擴展性作為保障,最終實現為全量業務數據歸集工作開展過程中的數據歸集問題提供完備的解決方案。

參考文獻

[1] WANG  P,  RAO  L,  LIU  X,  et  al.  Dynamic data  center  operations  with  demand-responsive  electricity  prices  in  smart grid[J]. IEEE Transactions on Smart Grid, 2012, 3(4): 1743-1754.

[2] BOICEA A ,  RADULESCU  F,  AGAPINL  I.  Mongo DB  vs  Oracle  ——  database comparison[C].Third  International Conference on Emerging Intelligent Data and Web Technologies, September 19-21, 2012, Bucharest, Romania. New Jersey: IEEE Press, 2012: 330-335.

[3] 嚴霄鳳,  張德馨.  大數據研究[J].  計算機技術與發展,  2013, 23(4): 168-172.

[4] 喬琳,  許暉.  復雜企業決策支持環境下的數據倉庫體系結構的演化[J]. 計算機工程與應用, 2000, 36(7): 98-100.

[5] 郝悍勇, 黃文思, 林燊, 等.  用戶感知度模型分析及其在客戶服務領域的應用[J]. 電力信息與通信技術, 2016, 14(1): 33-37.

[6] 國家電網公司. Q\GDW703-2012 國家電網公司公共信息模型(SG-CIM)[M]. 北京:中國電力出版社, 2012.

[7] LIU  Y,  WAN G  Y,  JIN  Y. Research  on the  improvement  of  Mongo DB  auto-shareing  in  cloud  environment[C].International Conference on Computer Science & Education, November 12, 2012, Yogyakarta, Indonesia. New Jersey: IEEE Press, 2012: 851-854.

[8] HAN J W,PEI J,YIN Y W.Mining frequent  patterns  without  candidate generation[J]. Data Mining and Knowledge Discovery, 2004, 8(1): 53-87.

[9] 陳毅波,陳乾,眭建新.基于大數據技術的電網運營分析決策系統研究[J].電力信息與通信技術,2015,13(8):128-131.

[10] 王忻.基于大數據技術的電力公司運營系統研究[J].商,2016(4):214-214.



作者信息:

梁 霄,湯  寧,張  瑋

(南瑞集團有限公司,江蘇 南京 211106)

此內容為AET網站原創,未經授權禁止轉載。