<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據質量監測系統范文

2023-10-22

數據質量監測系統范文第1篇

關鍵詞:環境監測,數據處理,質量控制

環境監測中獲得的大量數據用于描述、評價環境質量及污染狀況并作為環境管理監督的重要依據, 數據的準確性與可靠性是環境監測質量的有力保障, 因此需要對影響環境監測數據質量的因素進行分析, 并采取有效措施保證數據質量。本文從環境監測數據的“五性”--準確性、精密性、代表性、可比性和完整性, 分析環境監測質量控制對監測數據質量的影響, 并結合耗散結構理論探討監測數據質量控制的相關措施。

1“五性”因素對監測數據質量影響分析

1.1 監測數據代表性的影響

監測數據代表性是指在具有代表性的時間、空間分布上, 根據規定的要求及確定的目的獲得可反映典型環境特性的數據[1]。任何污染物在環境中的分布都不可能是非常均勻的, 如果監測數據沒有代表性, 就不能真實反映一定空間范圍內的環境質量水平、規律及變化趨勢, 這樣的數據結果一是會誤導公眾, 使社會、公眾對環境監測質量不認可, 二是會誤導政府, 給政府對環境的管理決策帶來偏差。

造成環境監測數據代表性差的原因是:監測布點選點不當, 沒有代表性;其次是布點數量不夠, 獲取的信息不完整。

1.2 監測數據完整性的影響

監測數據的完整性就是按照預期計劃取得有系統性、連續性或周期性環境數據的特性。完整性表示數據的總量可以滿足預期要求的程度或數據收集足夠、全面。同代表性類似, 數據不完整的后果也不能真實、有效反映環境質量水平, 造成“以偏概全”的片面結論, 招致公眾不滿、使環境管理部門不能作出正確決策。

引起監測數據不完整的原因有布點數量不足、采樣次數少以及檢測分析、數據處理不完整, 如測試項目不全、漏測、輔助參數不完整等問題。

1.3 監測數據準確性的影響

監測數據的準確性即測量結果與客觀環境符合的程度。準確性一般以監測數據的準確度來表征, 并采用分析方法或測量系統的絕對誤差或相對誤差來表示, 反映了該方法或系統所存在的系統誤差或隨機誤差的綜合指標。評價準確度可通過標準樣品分析、測定加標回收率及不同分析方法的比對來確定。準確性決定了分析結果的可靠性, 準確性越低, 試驗誤差越大, 監測數據越不可靠。

1.4 監測數據精密性的影響

監測數據的精密性是指測量值與真實值之間平行性、重復性與再現性。精密性以監測數據的精密度表征, 主要反映分析方法或測量系統隨機誤差的大小。精密度一般用極差、平均偏差、相對平均偏差、標準偏差、相對標準偏差等表示。精密性反映了分析結果的穩定性, 精密度越低, 隨機誤差越大, 檢測數據的穩定性越差。

精密性與準確性有著密切關系, 精密度好才可能準確度好, 精密度差不能判別數據的準確度。

1.5 監測數據可比性的影響

監測數據的可比性表示在環境條件、監測方法和表達方式等可比條件下所獲得數據結果一致的程度??杀刃约瓤梢栽诓煌瑢嶒炇抑g對同一樣品的監測結果進行比較, 也可以對同一實驗室分析相同樣品的分析結果進行對比, 還要求在時間、空間上可比, 并實現國際間、行業間的數據可比。監測數據的可比性是評判監測質量的重要標志, 如果沒有可比性, 那么監測質量的高低、數據的準確程度都無從談起, 更罔論地區之間、行業之間、國際之間的交流與合作了。

2 監測數據質量控制措施

2.1 耗散結構理論概述

耗散結構理論是比利時人普里高津 (Ilya Prigogine) 所創立的理論, 旨在解決開放系統遠離平衡態的有序問題, 該理論一經推出即在自然科學和社會科學領域產生巨大的影響。該理論認為一個開放系統, 通過不斷地與外界交換物質、能量和信息, 當外界作用于系統的條件達到一定閾值時, 通過漲落系統發生突變 (非平衡相變) , 系統就可由原來的無序狀態轉變為一種時間、空間或功能上有序的新的狀態, 如圖1所示。

2.2 傳統質控模式的缺陷

傳統的環境監測質控系統是封閉的靜態控制模式:監測站長壙質量負責人壙質量控制員壙項目監測組長壙監測分析員。該系統雖然分工明確且簡單有效, 但監測數據的控制主要依賴于質量控制員, 其他人基本上是履行簽字手續, 很難對數據的真實性、有效性進行有效監督, 對數據的系統誤差、隨機誤差糾錯也難做到, 一些偽數據也不容易被發現和剔除, 因而這種控制方式是不完善的, 存在很大漏洞[2]。

2.3 質控系統的改進和優化

為了改變傳統質控模式的不足, 按照耗散結構理論就應打破封閉的系統模式, 引入反饋、監督和交流機制:一是接受外部監督, 允許社會對監測數據質疑和復檢。二是經常性地與同級或上級環境監測部門交流, 進行監測數據可比性的分析, 找出不足, 及時改進;通過交流更新知識及獲取環境監測新技術、新方法。三是強化平面控制, 在系統內部不斷制造非平衡狀態, 通過非線性作用使系統產生漲落, 促進監測人員互相交流和監督, 提高技術水平、減少或消除系統誤差, 使監測分析的準確性和精密性得到持續改善。四是耗散結構理論非常重視信息的暢通, 系統應按照信息加工原理, 使進入的信息經過甄別, 信息釋放的同時也向信息源反饋信息, 促進信息流得到良性循環。圖2為信息流通圖, 圖3為環境監測數據質量控制流程圖。

2.4 加強監測數據的審核

為保證監測數據質量, 應加強對數據的審核:一是完善三級審核機制, 除了質控審核外, 重點加強項目分析組 (室) 和質量負責人這兩級的審核。二是通過檢查樣品采集原始記錄審核數據代表性。三是進行數據完整性審核, 重點在采樣是否符合規范、分析方法是否符合監測目的、輔助參數是否完整。四是審核數據的準確性和精密性, 著重審核加標回收樣、比例平行樣、密碼樣、密碼平行樣、校準曲線、空白試驗值、方法檢出限等。

3 結束語

監測數據質量控制是保證整個環境監測質量的關鍵環節, 除了改進優化系統、加強審核以外, 質控人員還應注重自身素質的提高, 努力鉆研業務, 不斷學習新技術、新知識, 通過與外部交流和接受外部監督, 為質控工作提供良好的參照。

參考文獻

[1]李揚.從“五性”的角度論環境監測數據質量的保證[J].農業環境與發展, 2011 (5) :33-34.

數據質量監測系統范文第2篇

推進信息化支撐企業管理水平的全面提升。在公司一體化信息平臺及業務數據的基礎上,分析、監測各項核心業務的整體運營狀況,及時發現并預警各類異動,支撐企業科學決策。數據共享和業務融合、各業務的深化、精益化管理應用、企業運營監測均離不開高質量的數據,更好地提升數據質量,發揮和利用好數據的價值,迫切需要提高數據質量模型的合理性和科學性,提高建立數據質量模型工作的效率,促進數據治理、建立健全技術支撐體系和管理支撐體系工作,輔助企業掌握生產經營全局,進行科學決策,更深入、具體地完成企業部署的各項管理要求。

建立數據質量模型是為了對數據質量進行量化評價并以支撐數據質量提升工作,評價一般指用戶數據客觀傾向較強的指標。例如,通過規范質量的分別規則來查找和評價質量,通過統計分析、模式分析和匹配分析等方法來測度和監測數據質量,通過數據分析來發現質量[2]。

1 數據及數據質量現狀

電力業務管理頻度低,業務管理數據多以報表式月度數據為主,沒有實現按天(或更高頻度)對業務進展和狀態的管理。其次,業務過程數據錄入維護不及時,數據生成時間滯后于業務過程。如人員進入退出信息不及時,業務拓展流程存在部分工程在整體完工后,才統一輸入各環節業務信息,無法真實反應業務擴展流程實際執行過程;一是部分數據在多個系統重復維護,導致數據多源。加上業務管理重疊造成數據在不同業務系統中重復。二是由于數據多源及管理要求不同,導致同一指標數據口徑不一致。

數據質量管理是數據管理的重中之重,是發揮數據價值[4],發展高階應用的基礎。數據質量模型的建立、數據質量規則的識別是數據質量模型管理的核心支撐[3]。

2自學體系和傳統數據質量監測系統間聯系

基于自學體系的數據質量評價系統需基于海量歷史數據,自動分析挖掘數據質量因素,為用戶推薦相應質量評價模型,而基于海量歷史數據的分析,單靠線下人工是很難完成的,而質量模型建立后,依托此模型構建的監測系統,需對數據進行分門別類,應用質量評價模型,實現數據質量實時評價,通過預警、核查、整改等一系列手段完成數據修正,提升數據質量。

2.1 傳統數據質量監測系統存在問題

傳統數據質量監測系統對數據質量的評價采用的是全局采集方式,即針對全集數據(如所有設備的基本型數據),選擇傳統評價方法得到評價結論[2]。雖然傳統方式易于理解、方法種類多樣,也相對較成熟,但是,傳統評價理論存在很大局限性,具體存在兩方面問題:

1)對數據全集的直觀評價結果是不可能表述客戶的要求。事實上,客戶得到的數據是通過信息采集系統加工處理之后的有關全集數據的一幅或多幅視圖,經過僅僅是所有數據中的一個組成部分??蛻魧τ跀祿馁|量、需求和評價必然由這些數據來反映,而不是整體數據。經過分析過濾后,數據的質量與原始數據的質量相比可能不會呈線性關系,它忽略了數據分析過濾過程中帶來的影響。事實上,部分查詢結果集的數據質量與原數據集質量二者間有較大的差異。

2)面對當前國網數據量不斷快速增長,企業對各項業務融合、深化應用、運營監測及分析預警和決策支撐應用要求不斷提高,而數據整體質量有待進一步加強,數據質量相關的業務規則常態化變動的形勢,提升數據質量,加強管控必須依托信息化手段,通過建立模型、配置管理業務規則,分析模型和規則運行效果數據,進而不斷優化模型和規則,形成適用的模型和規則庫,盡可能減少人工重復勞動和干預,分析影響數據質量的關鍵因素,真正有效促進數據質量提升。

2.2 自學體系的數據質量監測系統構建策略

基于數據中心和運監中心的海量歷史數據,分析挖掘數據[5]質量評價關鍵點,使用自我演進、自我完善的思想,識別各數據對象初始化質量規則,并依據不斷增長的新數據情況,及時動態調整質量規則,形成基于自學體系的數據質量模型,形成可量化的數據質量評價方法,支撐數據質量評價工作。

使用自學體系的數據質量模型為基礎設計監測系統,動態監測業務數據質量,對不符合數據質量規則的數據進行告警,并支撐數據問題處理流程跟蹤[6]。

2.3 自學體系中建立的規則

基于自學體系的數據質量監測模型建立系統包括以下自學規則:

1)基于數據關聯度的自學規則,通過數據關聯關系規則、數據關聯符合度等彼此間關聯關系進行學習。

2)基于歷史數據的自學規則,根據歷史數據分析結果,歷史數據選取規則以及歷史數據維護規則等進行學習,建立數據質量(評價)模型,包含了歷史數據分析設置、歷史數據選取、歷史數據類型的分析設置等功能。

3)基于數據校檢規則的自學規則,依據模型中指標標準、計算方法、冗余性校檢規則和偏差分析規則維護等數據校檢規則進行學習,建立數據模型,包含了數據集整體的完整性校驗規則維護、冗余校檢規則維護、一致性校驗維護、取值標準分析規則維護和偏差分析規則維護等。

4)數據異動監測與預警,基于數據質量監測系統設計,實時監測數據,當數據出現異動情況時,能夠預警告警,并給出相應的處理建議,存儲到不同地方。構建模型包含了實時監測數據設置、數據異動處理建議設置和異動處理建議內容查詢等。

3 自學體系的數據質量監測模型總體設計

建立數據質量模型是為了對數據質量進行量化評價并以支撐數據質量提升工作,通過定義質量判別規則來發現和評價質量,通過統計分析、模式分析和匹配分析等方法來測度和評價數據質量。模型主要是應用架構層、技術架構層和安全架構層三個層面構成。

總體架構設計如下圖:

3.1 應用架構層

模型中應用架構方面設計主要考慮到用戶體驗層、展示層、應用層、服務層、數據層以及外部系統。其中應用層是基于自學體系建立的規則,包含數據異動監測預警、數據關聯度的自學規則、和數據質量模型自學規則等。服務層和數據層包含了數據報表分析設計、歷史數據學習數據和數據質量自動建立數據等如圖2應用架構設計。

3.2 技術架構層

模型中技術架構層面設計包含了數據源層、服務層、接口層和應用層面。一方面提供模型的實現界面并提供接口和組件,從歷史數據學習中進行模型管理。另一方面處理并展現數據集如圖3技術架構設計。

1)應用層

應用層,即界面控制層,一方面是向最終用戶提供使用界面,負責數據的展現,同時接受用戶輸入數據,并對輸入的數據進行校驗,另一方面負責封裝界面層輸入的數據,頁面跳轉控制,對異常進行處理。

2)接口層

接口層提供業務邏輯的Java編程接口、R語言編程或PLSQLJDBC/ODBC驅動接口,實現業務邏輯,對事務進行控制,對外提供Web服務或調用外部系統提供的Web服務等。

3)服務層

服務層,即應用支撐層,由自定義開發的基礎服務組件,或開發平臺和第三方產品提供的各類基礎組件組成。

4)數據源層

數據源層,主要包括接口信息和運行數據、系統接入數據、監控和消息數據、數據中心和日志數據等。實現數據的抽取、存儲,計算,分析模型建立,數據質量的檢查,數據價值評估、查詢及分析統計,可視化展示信息的存儲等功能。

3.3 安全架構層

模型的構建中完善了信息安全防御體系和信息安全治理體系。信息安全是保證基于自學體系的數據質量監測系統安全穩定運行的關鍵,總體安全防護方案包括數據安全、網絡安全、物理安全和安全管理等。

4 研究成果

根據自學體系中建立的規則,通過數據質量分析和數據質量評估,對選取的數據建立基于自學體系的數據質量監測模型的監測系統,解決了數據多義性和冗余性等有關問題,研究電力數據質量監測管理,進而提高了電力數據的數據質量水平[7][8],形成以下研究成果:

1)建立數據關聯度的自學規則、歷史數據的自學規則和數據校檢規則等,為構建模型提供了理論和思想基礎。

2)通過應用架構層、技術架構層和安全架構層三個層面,分層面進行自學體系的數據質量監測系統設計提供理論基礎。

3)分析了自學體系的數據質量監測模型,設計的數據質量監測系統是參照傳統數據質量模型設計的,它具備數據質量模型優點,同樣也解決其部分不足,為數據質量監測和合理利用提供支撐。

5 結語

基于自學體系的數據質量監測模型采取對用戶獲得的數據視圖逐一(或部分)進行監測,從而得到監測結果。通過自學體系的數據質量監測模型建立系統[9],不僅可以使工作量將大大減少,支撐數據質量評價模型建立和數據質量實時監測,通過預警、核查、整改等一系列手段完成數據修正,提升數據質量。同時也能提高數據質量模型的合理性和科學性。

摘要:隨著智能電網建設飛快發展,造成電力數據種類復雜多樣化和數據質量參差不齊的現狀。以傳統的數據質量模型和數據質量管理等理論為基礎,介紹了傳統數據質量系統的優缺點。在其基礎上提出基于自學體系的數據質量監測模型,并依據模型構建監測系統。分層面詳細介紹數據質量監測系統,分析了有關構建策略,詳細介紹了自學體系中構建的規則。為數據質量監測模型提供了理論支撐,健全了數據質量監測體系,完善數據質量監測系統,支持企業科學決策,推進信息化支撐企業管理水平的全面提升。

關鍵詞:智能電網,電力數據,質量模型,數據質量,自學體系,監測體系

參考文獻

[1]劉周斌,譚瀟.大數據應用創新團隊建設的研究與實踐[J].管理觀察,2015(1):163-165.

[2]陳衛東.數據質量模型及關系代數運算下質量傳遞理論與方法研究[D].長沙:國防科技大學,2007.

[3]Madnick S E,Wang R W,Lee Y W,et al.Overview and Frame-work for Data and Information Quality Research[J].ACM Jour-nal of Data and Information Quality,2009,1(1):1-22.

[4]袁滿,張雪.一種基于規則的數據質量評價模型[J].計算機技術與發展,2013,23(3):81-89.

[5]劉軍,呂俊峰.大數據時代及數據挖掘的應用[N].國家電網報,2012-05-15(10).

[6]Todoran I,Lecornu L,Khenchaf A,etal.A Methodology to Evalu-ate Important Dimensions of Information Quality in Systems[J].ACM Journal of Data and Information Quality,2015,6(2-3):1-22.

[7]陳建長.電力企業統計內容、范圍應拓展[J].中國統計,2007(05).

[8]馬永蘭.電力企業綜合統計分析系統使用方法及常見問題探討[J].科技信息,2011(33).

數據質量監測系統范文第3篇

1 環境監測質量評定依據

目前, 關于環境監測分析標準上至國家環??偩窒轮两K地方政府都相繼出臺了相關的規定, 為環境監測質量的高低評定提供了現實依據: (1) 國家環保部頒布的監測標準, 《水和廢水監測分析方法》、《飲食業油煙凈化設備技術方法及檢測技術規范》、《聲屏障聲學設計和測量規范》等等。 (2) 環保部和地方性環保部門制定的技術規范, 如《地表水和污水監測技術規范》、《江蘇省地面水環境監測技術規范》等。 (3) 還環境監測部門制定的質量管理相關制度, 如《環境水質監測質量保證手冊》、《環境監測儀器手冊》等等, 這些都為環境監測質量的高低提供了具體的評價標準, 保證了實際環境監測工作的有序開展。

2 環境監測質量內容及措施

環境監測數據的質量包括數據的準確性、精密性、代表性、可比性和完整性, 直接影響到執法效果和反映環境質量的真實性[1]。

2.1 監測數據的準確性

環境監測數據的準確性主要體現在環境過程中實驗室分析測試方面, 要求測定值與真實值二者之間達到相應的符合程度。監測數據的準確性幾乎貫穿于環境監測工作的全過程, 包括待測物的采樣、參數的測定以及分析方法的選擇等待。

要實現監測數據的準確性, 一是要求監測隊伍具備高水平的業務素能和操作技能, 做好日常的標準化業務培訓;二是在監測設備的選取方面要嚴格按照國家計量檢定, 符合相應技術要求的測量設備;三是根據不同的待測物特點合理選擇測量方法。

2.2 監測數據的精密性

環境監測的精密性主要是指在監測過程中數次測定同一重復樣品的分散程度, 或者說測定值之間的符合程度。

要做到環境監測數據的精密性, 一是要加強監測隊伍的標準化培訓力度, 樹立標準意識;二是要定期對監測的設備進行校準, 并保持設備運行的穩定性;三是運用平行樣測定、空白實驗測定、實驗室內比對和質控圖方法判定其實驗室分析的精密性程度, 以消除其影響精密性的原因[2]。

2.3 監測數據的代表性

監測數據的代表性是指監測樣品的代表性, 影響這種代表性的因素主要有監測布點、樣品采集、保存和運輸等等, 以及在這些過程里面能否保持相對的穩定程度。

實現環境監測數據的代表性, 一是要嚴格按照采樣標準和程序做好采樣工作;二是根據不同測量物的特點, 合理選擇具有充分“代表性”的布點方式和方法;三是根據污染源污染物排放的特點合理選擇不同采集方法和采樣時間, 例如煙塵、煙氣的采集“等速采樣”法;四是做好樣品的保存和運輸工作, 尤其是要做好不易保存的樣品和待測物保存和運輸, 根據樣品特性選擇合適的器皿。

2.4 監測數據的可比性

環境監測數據的可比性主要是指環境條件、監測方法等具有可比的情況下所獲資料的一致程度。也就是說在環境監測過程中, 所獲取的某一區域內的環境污染狀況或者某一污染源主要污染因子的確定與該區域內的特定時期發展趨勢的符合程度??杀刃跃唧w應該包括時刻分布的可比性、實驗室間監測數據的可比性、采樣、監測以及數據的處理可比性等等內容。

實現環境監測數據的可比性, 一是要把握好采樣物質自身的特性以及各組之間的關系和實際排污情況之間的相關性;二是監測方法、標準物質準確度以及監測全過程的可比性;三是做好行業間、實驗室之間所監測到的數據間的可比性。

2.5 監測數據的完整性

環境監測數據的完整性是指按預期的計劃取得的系統的、周期性的或連續的環境監測數據的特性[3]。完整性更多強調的是監測工作總體規劃的切實完成而無缺漏, 除了樣品采集的完整性, 還需要做到檢測分析和數據處理的完整性。

實現環境監測數據的完整性, 一是要求監測人員具有過硬的業務素養和職業精神, 切實保證所樣品的采集完整性;二是要求現場采集記錄人員要嚴格按照規定填寫相關監測信息, 做到記錄的完整性;三是實驗室樣品移送和接收環節人員之間對于移送和接收的樣品認真核對, 保證樣品的完好性。

3 結語

環境監測數據直接用于后期的環境評價、管理, 以及環境執法, 甚至為公眾的相關活動提供了重要參考, 因此, 環境監測數據質量的提升具有現實意義。除了上述的從“五性”角度以外, 還需要做好環境監測報告的審核把關, 確保監測數據質量經得起現實檢驗, 服務于人們的生產和生活, 創造出更大的經濟效益和社會效益。

摘要:環境監測的目的是為了準確獲取環境信息數據, 以便及時對環境進行評價, 為后期的環境治理和管理提供依據, 環境監測數據分析質量的好壞則是核心。文章通過環境監測數據質量的“五性”內容及具體措施的分析, 論述了如何提升環境監測數據分析質量。

關鍵詞:環境監測,數據分析,質量

參考文獻

[1]李揚.從“五性”的角度論環境監測數據質量的保證[J]農業環境與發展, 2011 (5) :33-34.

[2]鄒曉鋼, 李德春.談怎樣才能獲得具有“五性”的環境監測數據[J]中國科技博覽, 2011 (8) :73-74.

數據質量監測系統范文第4篇

海洋環境監測數據質量直接影響海洋環境管理決策的科學性,準確可靠的監測數據是海洋環境科學研究和海 洋綜合管 理的依據[1]。如何進行海洋環境監測數據集的質量控制,是海洋環境保護及海洋信息化持續健康發展的關鍵問題。

目前世界上先進的海洋環境觀測系統,如美國海軍和國家海洋與大氣管理局發起的永久的集成海洋觀測系統IOOS,歐盟資助的一項海洋信息標準化項目MarineXML,以及現在 正在全世界建立的ARGO計劃等,都有自身觀測及監測數據的質量控制模式和標準。但這些質控模式和標準是根據各自的觀測內容制訂的,有很強的針對性和限定性。在海洋環境監測質量保證與控制方面,美國環保署(USEPA)、歐盟環境委員會、加拿大漁業與海洋部(DFO)、日本海上保安廳(JCG)等發達國家及組織都對各自的海洋環境監測制定了相關的制度和規范[2,3,4]。

經過近年來國內海洋環境監測工作的大力推進,國內海洋環境監測制度及質量控制規范制定較多,如:國家海洋 局“海洋監 測規范第2部分:數據處理與分析質量控制”,國家環境保護部“全國近岸海域環境監測網質量保證和質量控制工作規定(試行)”。但這些監測質量控制及檢驗方法大多是針對 實驗室內 質量控制 的研究,目前,海洋環境監測數據集質量控制尚未有一個系統化的檢驗方法[5]。

本研究以各監測機構上報的海洋環境監測數據為對象,有別于海洋環境監測實驗室內的質量控制,提出了監 測數據的 一系列質 量控制方法。

2監測數據集質量控制方法

海洋環境監測是為了獲取高質量可靠的監測數據,高質量的監測數據應具有準確性、精密性、代表性、完整性及可比性[6,7]。本研究從以下7個方面著重介紹了海洋環境監測數據集的質量控制方法。

2.1站位基礎信息一致性檢驗方法

對于海洋環境監測數據的質量控制,首先要保證該條記錄的基礎信息的準確性。通過基礎信息一致性檢驗可解決監測數據記錄查重、基礎信息錯誤等問題。一條監測數據記錄的基礎信息主要包括:監測區域、站位編號、站位經 緯度、監測日期等。一般而言,對于同一任務的監測要素,這4個信息點唯一確定一條監測數據記 錄;另外,對于生物質量、生物多樣性監測等的海洋環境監測數據,由于每個站位中,每個物種都形成一條記錄,因此,對于含有生物種名信息的監測數據記錄,利用監測區域、站位編號、站位經緯度、監測日期和生物種類共5個信息點來確定該條記錄的唯一性。根據不同的監測任務以及監測要素的數據記錄特點,分以下3種情形對站位的基礎信息進行質控。

(1)站位編號、站位經緯度和監測日期。對于水質、沉積 物等的海 洋環境監 測數據,存在4類問題:1站位編號相同,經緯度不同;2站位編號不同,經緯度相同;3監測日期相同,站位編號相同;4監測日期相同,經緯度相同。

(2)站位編號、站 位經緯度、監 測日期和 物種。對于生物質量、生物多樣性監測等海洋環境監測數據,主要存在4類問題:5站位編號相同,經緯度不同;6站位編號不同,經緯度相同;7監測日期相同,站位編號相同,且物種相同;8監測日期相同,經緯度相同,且物種相同。

對于站位編號 和經緯度 不一致的4類情況———1、2、5、6,屬于位置 精度問題。對 于監測日期相同的4類情況———3、4、7、8,判斷兩條記錄的監測參數數值是否完全一致,若完全一致則認為是重復記錄,若不完全一致,可認為是平行樣記錄,但需進一步核實。

2.2值域一致性檢驗方法

在海洋環境監測中,每個監測參數有其對應的經驗值域范圍,通過值域檢測規則檢驗該參數是否超出值域上下限。判斷監測參數的正常值域范圍可通過參考以下幾種方法進行檢驗。

2.2.1根據監測參數的理化性質

如鹽度、水溫、pH、透明度、溶解 氧濃度等。對于該類指標,其數據值域變化范圍差異不大,且有相關的理論依據作為指導。因此需根據各自參數指標的理化性質及中國近海分布規律給出各自的量級范圍。

2.2.2參照最低檢出限及最大污染倍數檢驗

利用該監測參數在海洋環境監測中規定的監測方法、監測儀器等,確定該監測參數的最低檢出限,利用最低檢出限指導該參數值域的最小值。根據《GB17378.2海洋監測規范第2部分,數據處理與分析質量控制》中的規定:低于檢出限的測試結果,應報未檢出,但在區域性監測檢出率占樣品頻數 的1/2以上 (包括1/2)或不足1/2時,未檢出部分可分別取檢出限的1/2和1/4量參加統計運算。因此在進行量級檢驗中,可將值域下限取其檢出限的1/4。

另外,利用該監 測參數最 大污染等 級的倍數,指導該監測參數值域的最大值。重金屬類及有毒污染指標,一般情況下在海水中含量較 低,除部分陸源排污口、特殊海洋工程用海等附近海域,不應該出現劣四類污染,因此可將值域上限取其最大污染等級標準的濃度值;化學需氧量、活性磷酸鹽、溶解無 機氮、總氮、石油類、硫化物等營養狀況及一般污染指標,在值域檢驗時,可將該部分監測指標量級范圍的閾值上限取最高污染等級的10倍。

2.2.3參照歷史監測參數范圍檢驗

對該監測參數在該區域中近10年或更長時間的值域范圍進行統計,給出該監測參數在海洋環境監測的最大值、最小值、分位值、平均值、標準差等統計信息,用于判別該參數濃度值的可靠性,并進一步指導該參數值域范圍的劃分。

2.2.4區域環境污染特征及相關資料文獻檢驗

利用區域環境污染特征以及相關資料文獻,分析特定監測區域內監測參數的污染特征,給出其值域范圍。超過該參數值域范圍的參數值作為可疑值,需聯系監測機構進行溝通解決。

2.3邏輯一致性檢驗方法

某些監測參數間存在一定的邏輯關系,即監測參數與監測參數間存在某種相關關系,有些關系具有一定的規律性,可利用這些相關性和規律性,對監測參數的數據集進行質量控制。參數邏輯一致性檢驗主要有以下幾類方法。

(1)參數不同 形態的關 系檢驗。1總氮(TN)是有機氮(TON)和無機氮(TIN)的總和,因此總氮含量應高于無機氮含量;2總磷(TP)是水中正磷酸鹽、聚合磷酸鹽、可水解磷酸鹽及有機磷等的總和,因此,總磷含量應高于溶解態磷含量;3溶解態氮含量應高于 溶解無機 氮含量;4溶解態磷 含量應高 于活性磷 酸鹽含量;5鉻的化合物常見價態有三價和六價,兩者可以相互轉化,因此總鉻含量大于六價鉻含量。

(2)同一物質在不同監測參數之間的關系檢驗。1由于一般水體有一部分有機物質不能在CODMn法中被氧化而可在CODCr法中被氧化,因此CODCr含量高于CODMn;2在BOD5的測定條件下,許多有機 物不能被 微生物分 解,但能為K2Cr2O7分解,因此CODCr含量高于BOD5;3大腸菌群和糞大腸菌群都是表征與糞便污染有關的細菌指數,大腸菌群 數應高于 糞大腸菌群數。

(3)不同參數內在聯系的檢驗。1溶解氧在海水中的溶解度,隨溫度的升高而降低,隨鹽度的增加而減少;2 pH值與總堿度相關,pH值越大,總堿度越小;3溶解氧含量正常的海水中,硝酸鹽含量一般應高于亞硝酸鹽含量。

在監測參數邏輯一致性檢驗中常見的問題主要是:無機氮、溶解 態氮、總氮以 及活性磷 酸鹽、溶解態磷、總磷之間的關系錯誤。根據對這些監測參數的分析方法的研究發現,除了銨鹽由于實驗室環境污染容易對分析產生正偏差以外,其余參數在分析過程中還原過程和氧化過程的化學反應效率一般小于100%,也就是分析結果一般產生負偏差?;谶@個原理,根據國內外相關文獻的研究成果,在對這些有問題的數據進行處理時,遵循以下原則:1溶解態氮或總氮含量低于溶解無機氮含量的,判斷為溶解態氮或總氮數據有誤;2溶解態磷或總磷含量低于活性磷酸鹽含量的,判斷為溶 解態磷或 總磷數據 有誤;3總氮含量低于溶解態氮含量的,因這兩個要素僅僅是形態差別,分析原理完全一樣,無法判斷哪個要素數據有誤,則同時標注為“可疑”;4總磷含量低于溶解態磷含量的,因這兩個要素僅僅是形態差別,分析原理完全一樣,無法判斷哪個要素數據有誤,則同時標注為“可疑”;5亞硝酸鹽含量明顯高于硝酸鹽含量的,核實溶解氧、pH值等要素,并結合站位所在位置進行具體判別。

2.4參數值時間分布檢驗方法

某些監測參數在不同監測時間上,存在一定的值域關系。監測參數隨時間序列變化關系比較復雜,需要專家經驗結合監測區域環境特征對歷年同一監測時段監測參數的濃度變化、年際參數濃度的均值變化、年內各監測月份濃度的變化趨勢做出定性判 斷,從而判斷 監測參數 值的合理性。

2.5參數值空間分布檢驗方法

海洋環境在空間上有較強的分布規律,一般認為,海洋環境近岸污染程度大于遠海。1懸浮物的含量決定著海水的水色和透明度,大洋中懸浮物含量只有幾微克/L,粒度微小,水色深藍;近岸和河口海區的懸浮物含量達到100mg/L左右,而且顆粒較粗,水色多呈淺藍、綠以至于黃;2根據重金屬污染來源和遷移轉化的特點,一般認為重金屬污染物在海洋環境中的分布規律河口及沿岸水域高于外海。

有些調查要素,如沉積環境中的大部分污染要素,僅從數據上很難發現系統性的偏差,特別是偏差后的數據也屬于正常范圍內時。在這種情況下,可檢查要素的平面分布圖,當發現某一區塊要素含量明顯高于或低于周邊時,應追溯原始記錄進行核實,一般可能在結果計算、計量單位與數據匹配、數據轉移等過程發生錯誤。對同時間某一監測值在某海域空間分布上出現指標值突變的情形,可作為可疑數據。

2.6離群點檢驗方法

正常的監測數據集應具有一定的分布規律。若發現部分數據與正常數據有顯著性差別的數據,此類數據稱為離群數據或異常值。出現此類離群點數據,可能是采樣、實驗室分析、填報等過程中因失誤產出 的噪聲數 據,亦可能是 某些地區、時段內的真實數據[8,9]。離群點檢驗的目的是為了消除噪音或發現潛在的、有價值的海洋環境現象。對于檢測出的離群點可視為可疑數據,其處理方法:分析具體時間具體區域的海洋環境異常情況,聯系地方監測機構進行核實。

2.6.1繪制散點圖法

散點圖是確定兩組數據屬性之間是否有聯系、模式或趨勢的最有效、最簡便 的二維圖形方法。為構造散點圖,每個數據對可視為一個代數坐標對,畫在二維直角坐標系中。對于海洋環境監測參數數據而言,當兩條坐標軸均為監測參數時,可反映兩個監測參數之間是否存在某些相關關系;當其中一條坐標軸為時間或空間屬性 時,可快速地反映該監測參數屬性的時間或空間分布規律。通過繪制監測參數數據的散點圖,還可直觀地查找監測參數的離群點數據。

2.6.2全局離群點檢驗———探索性數據分析檢驗法

由于海洋環境監測參數的理化性質差異,且采樣的空間分布不均勻,時間分布零散,因此很難界定每個樣本是否為獨立樣本,且很難判斷具體到每個監測參數的數據集符合哪個數理統計分布,故不宜采用基于樣本獨立或正態分布假設的數理統計檢驗方法進行離群點檢驗。

探索性數據分析是在一組數據中尋求重要信息的過程,無須借助于先驗的理論或假設,直接探索隱藏在數據中的關系、模式和趨勢等。其特點是對數據來源的總體不作假設,并且假設檢驗也經常被排除在外。探索性數據分析技術中的箱形圖可以清晰地表示數據的分布特征。

2.6.3空間局部離群點檢驗

空間離群點是與其空間鄰域中其他空間對象的非空間 屬性值存 在明顯差 異的空間 對象??臻g離群點挖掘是空間數據挖掘的一個重要分支,其目的是為了消除噪音或發現潛在的、有意義的知識。目前在交通控制、遙感圖像分析、氣象預報和人口統計數據分析等領域,已經有廣泛的應用。

空間離群點的挖掘首先出現在空間統計學中,主要方法可分為圖形檢測和定量檢測兩類。圖形檢測基于空間數據的可視化,在圖形中以醒目方式突出空間離群點,例如變差云圖,其優點是形象直觀,但只適合低緯數據[10,11]。定量檢測是一種精確檢測方法,通過數學計算將空間離群點與其他數據區分開來。根據海洋環境監測數據的空間特性,將海洋環境監測數據分為空間屬性和非空間屬性。監測站位經、緯度為監測數據的空間屬性,監測參數值為非空間屬性。

2.6.4專家經驗檢驗

利用專家經驗對某些監測參數進行審核確認。如海洋大氣監測分干沉降和濕沉降,若地方上報時未進行干濕比換算,則很難判斷該部分數據的異常,需結合專家經驗進行檢驗。

2.7生物種名檢驗方法

對于海洋生物種名的填報,需區分學名和俗名。同時要保證生物種名的學名和中文名的對應。避免填報出現“地中海輻桿藻”和“地中海輻稈藻”“鈍頭盒形藻”和“鈍頭盒型藻”“斯氏小泉蟲戎”和“思氏小泉蟲戎”“光滑河藍蛤”和“光滑河籃蛤”“李氏(魚銜)”和“李氏魚銜”等同一物種填寫多個名稱的問題。通過對海洋生物種中文名和學名規范化命名及編碼,可解決此類問題,同時可解決其屬種的歸類問題。

3結束語

數據質量監測系統范文第5篇

近年來,隨著經濟和社會的發展,電能質量問題日趨明顯。電網中存在著各種不同類型的用戶和設備,它們在依賴電能質量的同時又會對電能質量造成不同程度的影響:一方面,電氣化鐵路、變頻裝置等非線性負荷的廣泛接入,向電網中注入了大量污染,對電能質量產生了嚴重的影響;另一方面,用戶對電能質量的要求不斷提高,電能質量的下降將對用戶日常生產和生活造成直接影響。電能質量問題已經引起政府和電力行業的高度關注,而對電能質量的監測和分析則是解決電能質量問題的關鍵。

經過數年的發展,電能質量監測技術從手持式監測儀離線測量方式逐漸演進到了聯網在線監測方式,所有監測點的數據都匯集到數據庫中進行統一分析和展示。電能質量在線監測數據庫(以下簡稱電能質量數據庫)在電能質量在線監測平臺中處于核心的位置,它一方面支撐著頂層Web應用,另一方面又負責統一存儲底層數據。為了提升電能質量監測的范圍和精度,監測對象逐步擴大,監測指標逐漸增多,采樣頻率不斷加大,從而導致數據量的急劇增長,給數據庫帶來了很大的壓力,數據庫已經成為了整個系統的性能瓶頸。本文首先結合具體業務講述了江蘇電能質量數據庫模型的基本設計,而后對緩沖池、表空間和分區表等影響性能的重要因素進行了深入分析,最后介紹了數據庫的跨平臺遷移和行壓縮等優化操作。

1 電能質量系統和數據庫的特點

近年來,電能質量在線監測系統的建設呈如火如荼之勢。上海、江蘇和浙江走在了前列,山東、江西、廣東、山西等省也相繼建立了自己的平臺。圖1所展示的是一個典型B/S結構的電能質量在線監測系統架構。作為原始數據的載體,電能質量數據庫在電能質量在線監測系統中處于核心的位置。一方面,數據庫支撐著頂層的Web應用,對用戶的數據請求要做出快速的響應;另一方面,數據庫負責存儲原始數據,屏蔽了底層監測設備的異構性;除此之外,數據庫還要定期執行統計和分析計算等后臺程序。

江蘇電能質量在線監測系統經過幾年的發展完善,已經成為一個功能相對完備、具有良好可擴展性的平臺。在投運之初,系統接入的監測點數少于200個,監測指標主要針對穩態數據(諧波監測次數1~25次),監測點采樣頻率為3~5 min/(相·次)。隨著監測網的擴大和監測設備的更新,系統目前接入監測點已增至近1 000個;監測指標方面,穩態數據諧波監測次數擴充到了1~50次,暫態數據也進行了全面的監測;監測點的采樣頻率提升至1 min/(相·次)。未來計劃進一步擴大監測網的覆蓋范圍,3年內將監測點增至10 000個。電能質量系統是一個兼具聯機事務處理(OLTP)和聯機分析處理(OLAP)特性的系統,它的用戶包括各市縣供電局的專職以及電科院的專家。市縣專職屬于OLTP型用戶,主要關注短時間內(一般是一個月內)電能指標的數值,要求對近期數據進行快速查詢;而電科院專家則更關注長期(半年至數年)的一個變化趨勢,他們要求數據庫中數據盡可能完備,因此更偏向OLAP。這2個特性的兼備給電能質量數據庫帶來了很大的壓力。

電壓表和電流表是電能質量數據庫中數據量最為龐大的2個表,圖2是這2個表近年來數據量(行壓縮前)的變化趨勢??梢钥吹?數據量呈爆發增長的態勢。截止到2011年底,2個大表的數據量已經接近3.5 TB,預計到2012年底,這個數字將攀升至10 TB,數據庫將面臨著極大的壓力。

項目開發組選擇了IBM DB2作為電能質量數據庫軟件。DB2是大型的商用數據庫軟件,在穩定性、可用性、易維護性等方面表現優異,在海量數據處理方面更具有獨特的優勢。在電能質量監測系統測試和運行的初期,數據庫部署在Windows Server 2003平臺上,數據庫版本是v8.2。后來數據庫被整體遷移到了AIX小型機上,數據庫版本也升級到了v9.5。

2 電能質量數據庫模型設計

2.1 數據庫模型總體架構

電能質量在線監測數據庫可分為5個大的模塊:臺賬信息、電能數據、統計與評估、專題應用和系統管理。這種分類方法符合結構化原則,便于系統的開發和維護。其中,電能數據和臺賬信息作為底層數據,是整個系統的基礎。統計評估的數據是根據算法對底層數據加工而來。專題應用通過調用底層的原始和統計數據來滿足用戶訂制的展示需求。系統管理是作為服務模塊,貫穿于整個系統之中。

電能質量數據庫模型的總體架構如圖3所示。

2.2 電能數據

電能質量數據從大類上可以分成穩態數據和暫態數據。其中,穩態數據包含了電壓、電流、閃變和功率、超標等數據表,而暫態數據則包含驟變記錄、驟變數據、錄波數據等。為了提高穩態數據入庫的效率,還設計了電壓、電流、閃變和功率的臨時緩沖表。穩態數據的數據量占到全數據庫的90%以上,因此做好穩態數據表的設計和管理至關重要。

2.3 臺賬信息

電能質量監測系統的臺賬信息主要分為3類:即監測網設備臺賬、電網側臺賬及用戶側臺賬。監測網設備臺賬主要涵蓋部署在變電站的電能監測儀的相關信息,包含設備信息表、電流/電壓通道表、電流/電壓限制表、采集工況表、設備維護表等。電網側臺賬包括省、市、縣、變電站多層組織架構表、地理信息表以及與監測網的關聯表。用戶側臺賬則分敏感用戶、污染源用戶等不同類型的用戶表。

2.4 專題應用

為了對電鐵、風電等重點用戶進行監測,系統中專門設計了與其相關的臺賬及關聯信息表。電鐵專題中包含電鐵線路信息、牽引站、直供電廠、牽引站–敏感用戶–線路關聯等數據表;風電專題中與其類似,包含風電場信息、治理設備信息、風電場–線路關聯等數據表。

2.5 統計評估

電能質量監測平臺中有著復雜的、多維度的統計功能,因此數據庫中也對應有一系列數據表。電能指標維度上包含:電壓、電流、功率、閃變及超標的日、周、月、季、年統計表。組織機構維度上包含省、市、縣、監測點的月、季、年匯總表。數據庫中含有大量定期自動執行的存儲過程,將原始數據進行統計并寫入到統計表中。平臺中還有評估功能,根據一定的算法,對市、縣、變電站、線路進行預警及按月評估打分。

2.6 系統管理

由于用戶權限控制使用了省公司的統一框架,因此系統管理表較為簡單,僅包含碼表、郵件服務、系統公告、系統日志等管理和維護類型的數據表。

3 電能質量數據庫優化

在電能質量在線監測系統測試和試運行階段,選用了DB2 v8.2版本,并將其部署在Windows Server 2003服務器上。數據庫的所有參數均為系統默認。經過一段時間的運行,發現系統在穩態數據查詢時速度較慢,用戶體驗較差。在閱讀大量參考文獻并咨詢IBM數據庫專家后,決定將數據庫升級到9.5版本并優化了相關的參數配置。后期,將數據庫遷移到了AIX小機上,并對數據庫進行了行壓縮,從而使得數據庫性能達到了令人滿意的水平。

3.1 大數據表按月分區

上面提到過,數據庫中有電壓、電流、閃變和功率4個表(以下簡稱“4個大表”)的數據量較大。以電壓表為例,目前的總數據量已超過1 TB,即使加上了索引,查詢速度仍不盡如人意。以往處理海量數據表時往往采用分表的做法來分散存儲數據,并輔以Union操作實現數據聚合,這使得數據庫以及應用程序的復雜性大大提高。DB2 v9引入了表分區(table partitioning)機制,它根據表中的某個字段(如時間)進行分區,可以簡潔有效地提高大數據量表的性能。對4個大表根據時間戳字段進行分區,每個月建立一個獨立的表分區。這樣可以帶來以下2個好處。

1)極大地提高查詢的速度。對于分區表來說,如果查詢發生在一個分區內部,那么查詢速度是很快的。電能質量系統中的OLTP用戶對數據查詢速度有較高的要求,他們查詢數據的時間范圍大多在一周左右,一般不超過一個月,正好與分區的范圍相匹配。經過測試,采用分區機制后,OLTP類操作的響應速度提高了3倍以上,OLAP操作也有了明顯的改善。

2)方便后期的管理。對于歷史數據直接使用detach命令便可將對應分區從主表中脫離出來成為一個單獨的表,從而便于壓縮、歸檔或刪除等操作。

3.2 建立多個表空間及緩沖池

DB2提供了系統管理表空間(SMS)和數據庫管理表空間(DMS)2種表空間類型。DMS在性能上優于SMS,因此在電能質量數據庫全部采用DMS類型表空間。為了提高讀寫性能、可維護性及突破單表空間容量限制(根據頁大小,上限為2~16 TB),對于4個大表均分別按年建立相應的表空間,并將其與對應的表分區關聯。例如,對于電壓表,2010年的數據被劃入dat_v_part_201001~dat_v_part_20101212個分區內,而這12個分區又存儲在表空間TS_V_2010中。對于數據量較小的表,按照功能分別歸置到若干個專屬表空間中以方便管理。

緩沖池是影響數據庫性能最大的參數,因此對緩沖池進行了細致的設計。對于電壓、電流等穩態數據表空間,創建了一個1.2 GB的大緩沖池來保證系統的吞吐率。同時為大表的索引單獨創建了200 MB的緩沖池來提高并行性。對于其他小表空間,創建一個100 MB的緩沖池即可滿足性能要求。

3.3 將數據庫遷移至AIX服務器

完成了之前2個優化操作后,數據庫的性能已經有了較大幅度的提升。為了進一步提升數據庫的穩定性和可擴展性,將數據庫從Windows服務器遷移至AIX服務器。新的數據庫采用前端IBM AIX服務器雙機熱備、后端通過光纖連接EMC存儲設備的部署方式。雙機熱備有效避免了單點故障的發生,EMC存儲不僅保證了數據的可靠性,而且在面對未來持續膨脹的數據量時也可做到游刃有余。

由于此次數據庫遷移是發生在2個不同平臺之間的,傳統的備份和恢復的遷移策略不再適用。

1)在AIX服務器上建好數據庫并做好雙機配置。

2)配置好新數據庫的緩沖池和表空間。

3)通過db2look語句將Windows平臺數據庫的所有建表、觸發器、序列、存儲過程等腳本語句導出。

4)利用步驟3得到的腳本,在AIX平臺數據庫上執行建表語句(外鍵、索引暫時不建)。

5)先導大表的數據。傳統的做法是先用export語句導出源數據文件,而后用import或load的方式導入到新數據庫中。由于數據量大,這種方式效率較為低下,所以利用了游標load的方式實現大數據量的迅速遷移。先開啟目標數據庫的聯邦選項,隨后將源數據庫和目標數據庫互相編目,并將源數據庫上的大數據表以昵稱的方式映射到目標表上。接下來執行游標load語句直接將數據從源數據庫導入到目標數據庫中。由于此操作通過內存直接傳輸數據,不產生中間文件,因此節省了大量的時間。

6)對于小表,采用傳統的導入導出的方式,通過腳本批量執行可迅速完成。

7)建立外鍵、索引、觸發器、序列、存儲過程等組件,最后檢查數據的完整性和一致性。

數據遷移操作完成后,數據庫的訪問速度有了進一步的提升。在遷移后至今近2年時間里,數據庫性能高效平穩,沒有發生過宕機事故。

3.4 數據壓縮

電能質量數據量呈現逐年飛速增長的趨勢,給存儲帶來了巨大的挑戰。DB2從9版本開始推出了基于字典的行壓縮的機制,對于相鄰的含有重復數值的列具有較好的壓縮效果。電能質量數據庫中的電流、電壓和功率表正好滿足這個特性。以電流表為例,它的字段多達205個,其中有195個字段的數據類型為double。其中絕大多數的字段是用來記錄1~25次諧波原始值、最大值、最小值、平均值、九五概率值,由于其專業特性,一般情況下這些字段有80%以上值為0。資料顯示,行壓縮不僅可以有效地節省磁盤空間,而且可以顯著提高內存使用率并節省I/O帶寬。

謹慎起見,先在測試庫上進行了充分的測試并取得了理想的效果。由于正式庫數據量龐大,如果直接進行全表壓縮將會耗費較多的時間,從而影響系統的可用性。受益于前期的表分區機制,采用了逐分區壓縮策略?,F以電流表為例,進行了以下的具體操作。

1)先將2009年、2010年、2011年及2012年當前月份之前的數據分區從主表中分離出來,成為獨立的子表。由于設計時采用的是逐月分區的方式,因此共產生30多個子表。此時主表僅剩當前月份分區。

2)對分離出來的子表逐個執行數據壓縮,此過程不影響系統正常的OLTP操作。

3)對主表執行行壓縮,此過程中需暫停通信程序,Web側用戶訪問亦受一定影響。

4)將所有子表掛回主表,并進行數據完整性檢查。

上述操作總共需耗時若干個小時,但對系統訪問造成影響的時間窗口僅為步驟3,大約為十幾分鐘。

從下表可以看到,通過數據壓縮共節省約3.2 TB磁盤空間,大大緩解了存儲的壓力。壓縮后經過實際測算,數據查詢的響應速度與壓縮前基本保持一致。

4 結語

電能質量在線監測系統是一個兼具OLAP和OLTP的系統,隨著數據量的飛速增長,數據庫已經成為系統的瓶頸。本文中,結合電能質量業務特點,采用了表分區機制,并對緩沖池、表空間進行了精心的設計。此外,還對數據庫進行了跨平臺遷移及行壓縮等優化操作,從而使得數據庫在響應速度、可靠性和存儲空間等方面性能均大幅提高,大大改善了系統的用戶體驗。

摘要:近年來,在線監測已經成為電能質量監測的主流趨勢。數據庫作為前端訪問和底層數據之間的樞紐,在電能質量在線監測系統中起著重要作用。隨著數據量的飛速增長,數據庫已經成為整個系統的性能瓶頸,嚴重影響了系統的用戶體驗。文章先分析了電能質量在線監測系統和數據庫的特點,然后對數據庫模型進行了設計。在分析和設計的基礎上,一系列優化操作,如表分區、緩沖池規劃、數據庫的跨平臺遷移和行壓縮等在數據庫模型上得以實施。經過精心的設計和優化,數據庫各方面性能均明顯提升,極大地改善了系統的用戶體驗。

關鍵詞:電能質量,監測,數據庫設計與優化

參考文獻

[1]楊進,肖湘寧.電能質量監測技術發展新趨勢[J].電力自動化設備,2004,24(11):82–86.YANG Jin,XIAO Xiang-ning.New development tendency of power quality supervision technology[J].Electric power automation equipment,2004,24(11):82–86.

[2]陳錦銘,袁曉冬.電能質量在線監測平臺的設計與開發[J].電力信息化,2011,9(3):60–64.CHEN Jin-ming,YUAN Xiao-dong.Design and development of an online power quality monitoring platform[J].Electric power information technology,2011,9(3):60–64.

[3]牛新莊.循序漸進DB2—DBA系統管理、運維與應用案例[M].北京:清華大學出版社,2009.

[4]牛新莊.DB2數據庫性能調整和優化[M].北京:清華大學出版社,2009.

數據質量監測系統范文第6篇

新標準實施后, 環保部提出“三步走”目標, 到2016 年1 月1 日全國實施空氣質量新標準。河南省委、省政府高度重視環境空氣質量新標準實施工作, 將PM2.5等監測項目建設納入《河南省環境監測“十二五”規劃》, 將PM2.5等監測項目建設“四步走”并為“兩步走”, 2013 年底, 所有省轄市、省直管試點縣 (市) 共99個空氣自動監測站點全部完成新標準實施建設及監測信息發布工作。

河南省環保廳從2014 年1 月1 日起正式在官方網站上發布全省28 個市、縣的AQI日報, 并對公眾發布實時數據, 由于AQI新增因子及評價方法的不同, 原有的城市環境空氣自動監控平臺不符合新標準實施的要求, 河南省環保廳在老平臺基礎上新建了空氣自動監控新平臺。同時由于新增的儀器設備品牌不同, 同時監測數據量成倍增長, 完全依靠管理人員每日對數據進行肉眼觀察, 難免出現差錯或遺漏, 不可能做到全面完整和公正[3], 因此利用計算機強大的處理能力, 建立一套科學高效的數據審核體系非常重要, 在河南省環境空氣質量自動監控新平臺的建設和運行中, 針對數據審核方法和制度做了一些探索。

1 自動審核

1.1 概述

河南省環境空氣質量自動監控新平臺每天產生約16100 個污染物濃度小時均值, 每年約589 萬個小時均值, 面對如此眾多的數據, 必須要建立一套科學高效的數據審核方法。

數據審核的目的是得到有效數據, 圖1 顯示了數據流過程:各監測儀器的數據由數據采集儀采集后, 經過子站端自動審核, 傳輸到省廳服務器端數據中心, 然后經過服務器端的自動審核和人工審核篩選, 最終得到有效數據。

1.2 子站端自動審核

子站端自動審核的原理, 主要就在于通過采集儀器的狀態值來進行初步判斷。采集軟件從現場采集的每條數據不僅包括濃度數據同時還包括儀器的狀態, 例如開機、儀器報警、儀器校準等, 根據儀器上傳的狀態值, 對基礎數據進行標識, 除正常數據外其他數據都做無效數據處理, 部分標識符號示例見表1。

子站的五分鐘基礎數據按照表1 內容進行有效性標記和說明, 根據國家規范要求, 5min數據至少包含6 個有效的30s數值, 才能匯總出有效的五分鐘均值數據。

1.3 服務器端自動審核

服務器端自動審核主要是通過河南省城市環境空氣質量平臺的數據審核模塊, 設置判斷規則能夠自動實現自動站監測數據的自動調整處理, 主要的判斷規則如下:

1.3.1 主要監測項目 (SO2、NO2、PM10、PM2.5、CO、O3) 的小時均值、8h均值、24h均值等有效性規定按表2 執行, 完全達到國家規范要求;

1.3.2 在環境空氣中各項污染物濃度均處于極低水平的條件下, 部分儀器設備小時監測結果出現負值或零值時, 可按規則對數據進行修正, 恢復數據的有效性。規則依據《SO2、NO2、O3、CO自動監測系統技術要求及檢測方法》HJ 654- 2013, 根據儀器24h零點漂移, 最低檢出限等指標確定。如表3 所示。

1.3.3對濃度均值變化幅度異常處理主要是數據在24 h內變化幅度太小不符合污染物變化規律, 歸納的數學模型為24 h內污染物濃度的最大值 (max) 減最小值 (min) 小于一個常規合理差值。

1.4 提醒功能

為加強環境空氣監測數據質量審核, 避免出現省轄市、省直管縣不審核數據導致空氣自動監測數據出現異常值的情況, 河南省環境監測中心經對全省一年半 (2013 年1 月1 日至2014 年6月30 日) 時間內有效數據的統計分析, 通過認真論證, 設定了全省環境空氣監測平臺數據自動審核限值, PM2.5小時值大于300μg/m3, PM10小時值大于500μg/m3, SO2小時值大于800μg/m3, NO2小時值大于940μg/m3, O3小時值大于800μg/m3, CO小時值大于60mg/m3時信息平臺監測數據實施顏色改變提醒省轄市、省直管縣等用戶, 做數據復核, 確認監測端儀器運行是否正常, 監測數據是否異常、有效, 切實做好審核工作。

2 人工審核

2.1 審核人員

各省轄市、省直管縣環境監測站指定專業技術人員負責自動站的數據審核工作。

2.2 審核項目

審核人員主要審核生成空氣日報的六項污染物因子 (SO2、NO2、PM10、PM2.5、CO、O3) 。

2.3 審核時段

審核人員每天上午10:00 之前審核前一天的自動站數據。

2.4 審核方法

審核人員根據各點位空氣質量變化規律, 對計算機初步判別的數據進行再次確認, 對可疑數據進行現場檢查并確認, 確認出的異常數據做無效標記, 最終形成該天該城市的有效數據, 生成空氣質量日報, 并參與全省城市空氣質量評價。人工審核的一些經驗規則如下: (1) 儀器設備啟動到運行穩定期間的數據, 儀器通零氣/標氣或用標準膜檢查/ 校準期間的數據, 經質控檢查確認質量不受控的數據, 儀器故障狀態下的異常數據均為無效數據。 (2) 出現數據長期不變或變化較小時, 進行現場檢查并決定是否處理, 應檢查儀器抽氣泵是否故障、采樣管路是否漏氣, 儀器與數采的信號連接是否完好等。 (3) 出現異常高值、異常低值或者波動劇烈的數據時, 應檢查原因并決定是否處理。 (4) 根據監測數據與其正常日間走勢和正常季節性走勢之間的偏差, 判斷數據是否有效。 (5) 同一城市不同子站之間數據應具有相關性, 差別大時可能存在問題。

為保證原始監測數據庫的安全性, 系統有兩個數據庫, 上傳數據同時保留在原始數據庫和修正數據庫中, 對數據的標記只在修正數據庫中進行, 一旦標記有誤可方便的用原始數據進行復查。

3 結語

河南省城市環境空氣質量自動監測網絡覆蓋多個城市, 點位多、數據量大, 尤其在新標準實施后, 儀器設備眾多, 數據以海量計, 要對數據進行科學審核并不容易。河南省環保廳總結了一套符合本省實際的判別方法, 對監測數據進行自動審核和人工審核, 提高了審核效率, 且審核后數據的代表性、準確性大大提高, 目前已用于環境統計、定期通報、政府目標考核等多個方面, 具有良好的實踐意義。

摘要:環境空氣質量標準實施后, 空氣污染物因子增加, 監測數據成倍增長, 建立科學高效的審核體系非常重要。以河南省實踐為例, 探討了省級空氣自動監測網絡的數據審核方法。

關鍵詞:環境空氣質量,自動監測,數據審核

參考文獻

[1]GB 3095-2012環境空氣質量標準[S].

[2]吳迓名.新空氣質量標準實施后空氣質量自動監測質保審核的建立探討[J].環境監控與預警, 2013.5 (3) :53-56.

上一篇:生活中的平移講課范文下一篇:設計總工崗位職責范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火