<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據理論論文范文

2024-04-03

數據理論論文范文第1篇

1 數據挖掘的基本含義及功能分析

1.1 數據挖掘的基本含義

數據挖掘主要是指:在實踐過程中所產生大量的、模糊的以及隨機數據中, 提取出隱藏在數據中的潛在性數據內容, 對于提取處理的數據進行系統性的分析, 處理, 從而發現數據與數據之間的關聯性, 為地理信息測繪技術的優化奠定良好的基礎。而且, 在理論應用的過程中也可以實現新型的技術處理形式, 同時也可以實現大量的業務數據轉換、分析等模型的處理。也就是說, 數據挖掘是一種深層次數據分析理念, 與傳統的測量方式存在著一定的差異性, 而且, 其目的的結果主要是用來分析數據的價值, 驗證命題的正確性。而數據分析主要是指, 在沒有明確假設的前提之下挖掘信息的關聯性, 對于挖掘出的信息而言, 對測繪技術的設計具有一定的應用價值。

1.2 數據挖掘的功能性分析

在測繪地理信息技術的分析過程中, 其數據挖掘的理論可以將采集到的數據轉化為相關的測繪知識, 再通過對數據內容的運用, 可以實現以下幾種功能:第一, 是聚類功能, 就是按照數據內在的規律, 將數據聚合分類;第二, 是關聯分析功能, 主要是在數據分析的基礎之上發現重要的問題形式, 并建立多次的檢測形式, 在分析的過程中如果發現數據之間的差異性較小, 也就說明在數據挖掘的同時存在著一定的關聯性;第三, 分類功能, 通過對不同數據內容的分析可以發現, 其分類的內容及標準會形成不同的檢測形式, 而且, 在分類偏差系統的優化過程中, 可以對技術進行科學化的調整, 從而優化功能性的問題分析。在實踐的過程中可以發現, 事物是具有一定內在聯系的, 為了充分實現數據的總結、分類以及聚類, 就應該對采集的數據進行系統性的分析, 從而為技術人員的工作提供充分性的保證。

2 數據挖掘理論在數據采集中的應用

2.1 建立科學化的數據采集平臺

隨著科學技術的之間發展, 數據采集以及平臺應用理念逐漸推出, 在數據采集平臺的建立, 可以實現大量的數據儲蓄, 根據最新的統計顯示可以發現, 一個完整的數據采集平臺一次就可以形成50萬以上的數據。而在數據分析的過程中很多數據是表面上的數據, 而通過數據挖掘理論系統的建立, 與數據挖掘理論進行充分性的融合, 可以做出準確性的預測性分析, 從而也可以將單獨的數字進行總結、分析以及管理分析, 將分散性的數據進行系統性的整合, 從而挖掘出隱藏在系統中的信息, 同時也可以實現技術應用過程中的管理及優化的技術處理形式。

2.2 數據挖掘的應用基礎

由于科學技術的不斷優化, 數據庫的儲存量不斷充實, 導致數據采集需要在不斷完善中得到發展。而且, 隨著信息儲備量的增大, 數據平臺的信息量儲存發生了很大的變化。首先, 系統的版本得到了不斷的更新, 例如, Web數據采集中的系統版本, 由08c版轉變為現階段的10a001版;其次, 是匯總部分字段以及文字采集的階段, 數量逐漸增加, 從而使數據采集平臺形成了規?;陌l展。而且, 在整個過程中也不斷強化了數據與數據之間的關聯性, 為數據挖掘理論的應用提供了基礎平臺, 同時也為技術人員合理的運用數據挖掘理論提供了充分性的保證。

2.3 關聯規則的挖掘理論

在關聯規則的使用過程中, 主要是將獨立的、單獨的數據內容進行充分性的結合, 從而多角度、多方位的分析某一事物的變化。對于初次使用數據平臺的技術人員而言, 在數據采集的過程中, 如果要根據數據采集的現狀, 對測評系統進行合理化的設計, 是十分困難的, 他們在分析的過程中, 很難發現數據與數據之間的關聯性。因此, 在現階段數據挖掘理論基礎的建立過程中, 就應該充分的認識到這一點內容。在工作的過程中全面培養技術性人才, 通過對員工工作狀態的分析, 發現存在的問題, 然后在制定出科學化的工作決策理念, 從而為員工樹立正確性的發展方向。與此同時, 數據采集平臺只是為了提供數據, 而在數據挖掘理論內容的分析過程中, 是為了發現數據與數據之間的關聯性, 挖掘出數據檢測中的基本理念, 從而在根本意義上為技術的應用建立科學性的依據。

3 結束語

總而言之, 在數據挖掘平臺建立的過程中, 為了實現數據采集平臺的應用技術, 就應該在采集平臺建立的同時, 強化數據挖掘的理論基礎, 從而實現數據處理的合理性。但是, 在整個理念應用的過程中, 由于其自身的局限性, 所以在使用的過程中, 應該對測繪技術進行合理化的分析, 優化數據的采集, 從而為整個數據挖掘的理論性應用提供合理化的依據。

參考文獻

[1]許敏.數據挖掘理論在數據采集中的應用[J].科技傳播, 2013, 21:222+211.

[2]崔彬.數據挖掘中多維數據可視化的研究[D].武漢理工大學, 2006.

數據理論論文范文第2篇

隨著信息社會的發展,互聯網提供了海量的圖像、視頻和音頻等各種形式的數字媒體信息數據?;ヂ摼W在提供方便服務的同時,一些未獲得相應媒體認證的用戶通過互聯網輕易地獲得數字媒體,稍加修改后就給自己使用,如何來維護原創者的版權問題?如何來定位原始信息是否被篡改?數字水印技術是將一些標識信息(即數字水印)直接嵌入數字載體當中,但不影響原載體的使用價值,也不容易被人的知覺系統(如視覺或聽覺系統)覺察或注意到。數字水印按功能可分為版權保護水印和認證水印,前者通過這些隱藏在載體中的信息,可以達到確認內容創建者保護合法的版權,在發生版權糾紛時,創建者或所有者的信息用于標示數據的版權所有者,主要為魯棒水印,用于版權保護的數字水印要求非常強健,除了要求能抵抗一般的圖像處理(如:濾波、加噪聲、替換、壓縮等)外,還必須能抵抗一些惡意攻擊如剪切和篡改;而后者進行內容完整性認證來判斷載體是否被篡改等目的,即用于多媒體內容真實性鑒定的水印,這種水印同樣是在數據內容中嵌入信息,內容發生改變時,水印信息會發生一定程度的改變,因而能夠鑒定原始數據是否被篡改。如果能將兩種效果結合,則要求有比較強的敏感性,又要能將失真情況檢測出來,實現雙重效果,同時具有版權保護和認證的目的。

最經典的變換域魯棒水印方法最早由Cox用一個長度為的高斯序列作為水印,將其嵌入到宿主圖像DCT變換的前n個幅值最大的系數中(不包括直流),以提高水印的抗攻擊性[2]。文獻[3]首先根據人類視覺系統和圖像的局部特性選擇水印嵌入區域,然后利用JPEG壓縮量化階段的舍入誤差嵌入嵌入多個版本的水印信息,該算法對各種常見的圖像處理都具有較強的魯棒性,但是算法復雜度高。文獻[4]提出了一種基于DCT系數關系的算法。該算法利用人類視覺系統的特點,選定的中頻DCT系數之間的關系來嵌入水印,從而使得圖像在嵌入水印后視覺失真盡可能的小。主要的缺點是抗JPEG壓縮性能較差。文獻[5]把彩色宿主圖像從RGB三色空間轉換到YUV空間,然后將水印嵌入在y分量中。在全頻段覆蓋的小波系數進行隨機選取,并將隨機數的種子作為提取水印的密鑰。

對于脆弱水印文獻[6]利用圖像對比度敏感性確定各像素水印嵌入比特位,通過LSB(Least SignificantBit)替換方法自適應嵌入水印,并推導出用于圖像認證的篡改檢測決值。該方法對可接受的偶然攻擊操作具有一定的魯棒性。文獻[7]采用基于非抽樣Contourlet域奇異值分解的自適應水印認證方法進行認證、定位篡改,再利用零水印技術從第三方處提取篡改處的恢復水印,此方案需第三方支持。

本文巧妙地實現一次性嵌入雙效水印,使得實驗結果不僅具有很強的魯棒性并且能準確地定位篡改發生的位置。

數字水印一般來說就是一種通信過程。與傳統的通信過程類似,由于受到噪音的影響,信源發出信息經過通信信道傳輸與從信宿接收的信息總是不盡相同,這時產后的信道誤碼常利用糾錯碼來檢錯與糾錯。同樣數字水印信息在圖像、音頻、視頻等多種載體中隱藏,數字載體經常受到噪聲、壓縮、裁剪等各種攻擊,所提取出來的水印信息也會有很大的偏差。因此有學者們提出利用糾錯碼來減少錯誤的比特。他們使用了漢明碼[8]、BCH編碼[9]和 RS碼[10]來降低水印信道的誤碼率;但是水印信道的誤碼率通常比較大,大概在0.1到0.5之間,單純的水印糾錯碼往往作用不大。所以我們使用糾錯碼對水印信息進行調和,重復嵌入到圖像信息的不同位置,根據糾錯碼的輔助信息來估計出提取的水印的失真度,同時還可以定位出水印的被竄改區域,實現圖像的錯誤定位功能。并結合證據理論中相似信息的可信度進行信息融合,計算魯棒水印。這些數據的合并方法能使水印算法更強壯,對常見的噪聲、壓縮、裁剪等各種攻擊都能有很好的效果。

1 證據理論

在證據的積累過程中,決策者需要充分利用冗余信息進行信息的融合。證據指的是人們分析命題,判定基本可信的數分配的依據,這種依據通常來自事物的屬性,與客觀環境,還包括人們的經驗、知識和對該問題所作的觀察和研究。證據源的不確定的性質必然導致信息融合的困難,而Dempster-Shafer 理論[11,12,13]是一套基于“證據”和“組合”來處理不確定性推理問題的數學方法。該理論對不確定性的度量貼近于人們的思維習慣,利用上、下限概率來解決多值映射問題,并把證據的信任函數與概率的上下值相聯系,構造了一種不確定推理的模型框架Θ。對于問題域中任何命題A都應包含于冪集中,并在冪集上定義了基本置信指派函數m∶2Θ→[0,1]滿足xΘm(x)=1m(?)=0。其中,使得m(A)>0的A稱為焦元。

在識別框架Θ上基于基本概率分配的m的信任函數Bel定義為:

自多個信息源的證據經過處理后得到各個證據的基本概率分配函數和可信度,進行DS數據融合就依據以下合成規則:

對于∀A⊆Θ,Θ上的兩個m函數m1、m2的Dempster合成規則為:

其中,K為歸一化常數。

2 數據融合方法

使用DS方法融合信息的基本思想是,如果把來自多個信息源的證據進行預處理,然后計算各個證據的基本概率分配函數和可信度,再根據Dempster的合成規則計算所有證據聯合作用下的基本概率分配函數和可信度最后按照一定的判決規則選擇可信度最大的假設作為融合結果。本文利用糾錯碼的糾錯冗余信息將待融合的水印信息從圖像的不同位置提取出來,通過糾錯碼進行計算它的失真度來確定融合時的可信度。

最常見的信道編碼有漢明碼、BCH碼、卷積碼、Turbo碼等。本文采用BCH[n k]碼, 其中總的碼長為n, 信息位長度為 k, 糾錯碼能夠檢錯或糾錯,主要是靠碼字之間有較大的差別。這可用碼字之間的漢明距離 d(x,y)來衡量。它的定義為碼字x與y之間的對應位取不同值的碼元個數。一種糾錯碼的最小距離 d定義為該種碼中任兩個碼字之間的距離的最小值。一個最小距離為d的碼字最多能檢出wmci位錯誤如果d是偶數,它最多能檢查出 d/2位錯誤。這樣在水印信道中我們所隱藏的水印信息如果遭到各種攻擊影響,就可以檢測出它的錯誤位數,并可以用錯誤位數的大小來大致估計出水印受到攻擊的損壞程度。水印證據 wmci 經過糾錯解碼后變成wmdi(i=1…l) ,我們可以根據糾錯結果來判其錯誤位數e,那么這個水印證據的失真度一定程度中就能表示為:

此時,若e=0表示沒有失真。

一般地,在實際的融合系統中,僅靠單一的融臺方法難以取得非常理想的效果。故多種融臺方法的分工和互補是很自然的選擇。證據權重系數除了取決于該證據本身的可靠性,還要兼顧該證據與其他證據的沖突程度。所以, 在對幾個證據賦權重時, 首先要求得第i個與第j個證據的距離dij:每個從水印圖像中提取的水印的信息證據 wmci(0≤il)是一種m位長的向量。為了衡量水印證據之間的沖突程度,我們定義任兩個水印證據之間的距離為:

當然兩個水印證據之間的距離越小表明兩個證據水印的沖突越小,則它們越相似。所以它們之間的相似度為可以轉換為:

式(6)反映了水印證據 wmciwmcj之間的相似度。由此我們可以得到每一個水印證據之間的可信度為:

3 水印的嵌入與提取

3.1 水印的嵌入過程

第一步:原圖像進行8×8分塊, 并對每個分塊進行DCT變換,得到變換后的圖像;

第二步:對要嵌入水印的信息使用密鑰生成偽隨機序列,然后進行糾錯編碼,使水印信息的信息標志有更大的代碼分隔,增強糾錯的效果;

第三步:得到每個變換后的小矩陣,根據HVS的亮度掩蔽特性,選擇塊內兩個中頻系數D(a,b)和D(c,d)進行比較,并設置嵌入的系數α,使得進行調整之后兩個中頻系數的差值為2α,水印序列重復嵌入幾次。

此時,水印一經嵌入,通過定性檢測兩個大小關系就可以得到一個魯棒水印,通過定量檢測兩個系數的差值就檢測甚至于能定位原圖像是否被篡改,就能得到一種雙效水印的效果。

第四步:水印信息嵌入后,進行DCT反變換,就得到添加水印后的圖像

假設原圖像為I,大小為lm×ln,水印信息根據密鑰生成的偽隨機序列為watermark,使用BCH(n,k),按照HVS的亮度掩蔽特性選擇每一個變化塊內兩個中頻系數是D(a,b)和D(c,d),嵌入水印之后的圖像用Watermarkedimage來表示,其核心代碼實現如下:

3.2 水印的提取過程

提取的過程中的水印并不需要原始圖像。我們利用這個秘密密鑰和嵌入的秘密位置來查找水印。提取的過程中的水印是描述如下。

第一步:待檢測的水印圖像進行8×8分塊, 并對每個分塊進行DCT變換。

第二步: 根據水印嵌入的秘密位置,尋找每一個分塊中相對應DCT系數之間的關系,提取水印來檢測圖像哪些塊遭到篡改,設定閾值ε,檢測的公式如下:

若檢測的公式成立,則說明相應的塊受到篡改。

第三步:根據兩個系數之間的定性關系來檢測魯棒水印證據:

第四步: 每個提取的水印進行糾錯碼解碼,得到待融合的水印證據及每一個水印證據分組的失真度。

第五步: 根據水印分組的失真程度?(wmci)以及水印分組之間的可信程度T(wmci)進行水印的融合:

此時αi∈[0,1]并且需滿足∑αi=1,并且當l∑T(wmci)=0或者(wmci)=0時有α1=0,α2=1。i=1

第六步:對于數據融合后的水印序列進行量化,并利用密鑰得到水印信息。

對于已加入水印的圖像在遭受到攻擊后假設其圖像為Watermarkedimage,根據本文算法,根據兩個系數之間的定量關系來檢測提取的脆弱水印,定位圖像表示為detewatermarked,根據兩個系數之間的定性關系來檢測魯棒水印證據,每個提取的水印分組進行糾錯碼解碼,得到待融合的水印證據及每一個水印證據分組的失真度,最后可以根據水印分組的失真程度?(wmci)以及水印分組之間的可信程度T(wmci)進行水印的融合。魯棒水印表示為watermark,可由以下核心程序來完成:

4 仿真實驗及結果

在MATLAB 7.0仿真實驗平臺下,選擇標準測試圖像lena(512×512,8位灰度級)作為原始圖像,以說明本文算法的有效性。水印的圖像水印為32×32的二值小圖標,糾錯碼為BCH碼 (31,21) 。假設原水印為w(i),提取出來的魯棒水印為w′(i),其相關系數為:

本文采用峰值信噪比PNSR來評價含水印圖像的質量,對于測試圖像的實驗結果,該算法所產生的含水印圖像PSNR值平均高達36.8dB以上,如圖1為測試原圖及嵌入水印后的圖像以及未受攻擊時提取出來的水印,表明算法具有較好的水印透明性。

4.1 魯棒水印的測試結果

本文也以512×512的Lenna,從未受攻擊、單重攻擊(包括模糊、濾波、銳化、壓縮、噪聲)以及多重攻擊(壓縮、銳化、剪切等組合)三個角度考察水印的穩健性,如表1所示本文的方法能較好地抵制一般攻擊時如壓縮噪聲及濾波攻擊,而當受到較強烈的攻擊如剪切、銳化及多重攻擊時,圖像的質量明顯下降,本文方法依然能較完好地提取水印。

4.2 篡改定位性能

圖2以剪切攻擊,及惡意篡改實驗為例,測試了算法篡改檢測性能,從圖中可知,本文方案對惡意篡改攻擊非常敏感,并能對相應的篡改區域進行較為準確的定位。

5 結 語

該算法實現在一次水印嵌入時有攜帶兩類水印信息,利用嵌入系數之間的定量分析能提取脆弱水印,并能準確定位篡改的區域;而利用嵌入系數之間的定性分析可以提取魯棒水印,在經過基于證據理論的水印證據的融合后能夠有效地抵抗噪聲,JPEG壓縮、剪切、模糊、替換、惡意竄改等各種攻擊。該算法不僅有很強的魯棒性并且能準確地定位竄改發生的位置,是一個安全且有效的雙效數字水印。

摘要:提出一種新的基于證據理論的數據融合的雙效水印算法。首先應用水印公式構造特殊的水印嵌入后條件,根據嵌入系數之間的定性分析提取魯棒水印;利用嵌入系數之間的定量分析能提取脆弱水印,并能準確定位篡改的區域。其次在嵌入過程中還使用糾錯碼對水印信息進行調和,把水印重復嵌入到圖像信息的不同位置,以便利用糾錯碼的輔助信息來估計出提取的水印的失真程度,然后結合證據理論對其數據進行融合獲得魯棒水印。實驗結果表明其可以抵抗模糊、濾波、銳化、壓縮、噪聲和剪切等單重以及多重攻擊,同時還可準確地定位篡改發生的位置。

數據理論論文范文第3篇

1 學習目的與學習內容

如何構造一個好的數據庫模式是關系數據理論研究的實際應用背景, 學生學習了該部分知識后, 不僅應能夠對數據庫模式的優劣進行判斷, 而且能夠設計建立良好的數據庫模式, 以使得在關系操作過程中盡可能避免或較少地產生異常。

關系數據理論的主要學習內容包括:規范化理論、數據依賴公理系統和模式分解。規范化理論部分, 主要掌握依賴關系及范式的定義及概念;數據依賴公理系統部分, 主要掌握基本公理、推理、覆蓋及閉包, 并熟練應用推導;模式分解部分, 要求能夠針對具體問題, 運用所學理論進行模式分解。

2 學習方法

基于上述學習內容的劃分, 下面分別研究分析每部分內容的學習方法。

2.1 規范化理論學習

所謂規范化即是要逐步消除數據庫模式中不合適的數據依賴, 它表達了數據庫模式中各關系模式達到某種程度的分離[1]。這種分離過程, 即規范化過程是通過模式分解來實現的, 把低一級的關系模式分解為若干個高一級的關系模式[2]。學習規范化理論時, 學生重點學習兩種依賴關系和六個等級的范式, 弄清依賴關系與范式之間的對應關系, 理解記憶這些定義的內涵。例如, 完全函數依賴和部分函數依賴是與第二范式的定義有關聯的, 學習時要注意將兩者聯系起來。為輔助概念的理解, 在學習過程中, 還可以建立一到兩個與自身相關的易于理解的實例。如學習完全函數依賴、部分函數依賴及第二范式時, 可構造關系模式A (學號, 系編號, 系住所, 課程號, 成績) , B (學號, 系編號, 系住所) 和C (學號, 課程號, 成績) , 模式A中含有非主屬性對碼的部分函數依賴關系, 因此模式A不屬于第二范式, 模式B和模式C中所有非主屬性對碼都是完全函數依賴關系, 因此模式B和模式C屬于第二范式。

2.2 數據依賴公理系統學習

數據依賴公理系統是模式分解算法的理論基礎[2], 其中的Armstrong公理系統是一個學習重點。學生學習這部分內容時, 首先應熟練掌握Armstrong公理系統的六條推理規則。其次, 學生應理解兩個概念:閉包和覆蓋。求閉包的作用在于確定關系模式的候選碼, 以便對其中的函數依賴以及范式的級別進行判斷;覆蓋表示函數依賴集的等價, 這里學生應掌握最小覆蓋的構造方法, 也就是說, 給定一個函數依賴集, 都能找到與其等價的一個最小的函數依賴集。求閉包和最小覆蓋有兩個成熟的算法, 學生學習時, 可以考慮用一門高級語言來實現這兩個算法, 不但使枯燥的理論學習更加生動活潑, 鍛煉自己的編程能力, 還能夠加深對算法的理解和記憶。

2.3 模式分解學習

模式分解是提高關系模式規范化程度的主要途徑, 分解后的模式應與分解前的模式等價, 有三種不同的等價定義:1) 分解具有“無損連接性”;2) 分解要“保持函數依賴”;3) 分解既要“保持函數依賴”又要具有“無損連接性”。學習時, 首先要理解無損和保持函數依賴的涵義及判定方法, 其次需要掌握模式分解的方法。模式分解的方法主要分為兩大類, 第一類稱為投影分解法, 這種方法有一套類似的方案, 適用于模式的逐級規范化, 即將一個滿足第N范式的關系模式分解為若干個滿足第N+1范式的關系模式;第二類稱為模式分解算法, 其適用于特定范式級別特定等價定義的分解, 例如將模式分解為第三范式既有無損連接性又保持函數依賴的分解算法。這部分內容屬于知識的綜合運用部分, 學生應該多做多練, 在大量的實戰練習中更好將知識融會貫通。

3 結論

本文從規范化理論、數據依賴公理系統和模式分解三個方面的內容闡述了關系數據理論的學習要點和學習方法, 以期望對學生學習該部分內容時有所幫助, 增強學生對知識的掌握能力和綜合運用能力。

參考文獻

[1]呂鳴, 王萍, 劉建斌.關系數據理論的教學實踐探索.中國電子教育, 2012, 3:69-72.

數據理論論文范文第4篇

災備可分為數據級災備和應用級災備。數據級災備實現系統核心數據的災難備份, 是基礎級別的災備。應用級災備則實現數據和應用系統的雙重災備, 遇到災難時, 不僅能恢復數據, 而且能利用備份恢復甚至直接接管整個信息系統。應用級災備對系統的保障性更高, 災難恢復時間更短, 但也存在投資大、技術難度高的問題。數據級災備不僅是應用級災備的基礎, 在某些情況下, 也是一種更廉價和高效的災備手段。本文重點討論數據級災備的常用技術。

一、數據級災備技術

(一) 磁帶備份異地存放。

實現方法是, 將數據備份到磁帶 (事實上還包括其他移動存儲介質) , 然后將磁帶運送到備份中心。這在SHARE78標準中被稱為PTAM (Pickup Truck Access Method, 卡車運送訪問方式) 。這是早期的災備技術, 使用率曾超過90%。這種方式的優點是技術簡單, 成本低;缺點是備份和運輸過程需要全程的人工參與, 效率低, 且備份數據版本不夠新。該技術達到災難恢復能力等級1級。隨著網絡技術的普及, 這種方式逐漸被電子傳輸方式取代。

(二) 本地備份電子傳輸。

本地完成數據備份后, 利用通信線路將備份數據傳送到備份中心。這種情況下, 備份中心具有足夠的基礎設施, 包括軟硬件和網絡。備份存儲設備不再限于磁帶, 還可以是帶庫或磁盤陣列。備份中心具有備份數據庫, 可直接將數據恢復到較新狀態。這樣做雖然增加了備份中心的建設與維護成本, 但明顯提高了效率, 減少了數據傳送時間和災難恢復時間。災難恢復能力等級可達到2級。

與第一種方式相似, 本地仍采用傳統的間歇式靜態備份, 可采用備份策略, 包括全量備份、增量備份、差量備份、文本備份、快照等。但靜態數據備份盲點時間長, 即從最近一次備份到系統崩潰期間的業務數據會全部丟失, RPO (恢復點目標, 數據恢復到的時間點要求) 較大。

(三) 硬件復制技術。

又稱IO復制、磁盤鏡像, 是一種實時動態的復制技術。它由主點存儲、鏡像器、通信線路、備點存儲組成。鏡像器捕獲主點存儲的IO操作, 并將其傳送到備點, 在備點存儲上進行相同的IO操作, 實現備點存儲與主點存儲內容完全一致。遠程磁盤鏡像可實現數據級和應用級的災備, 但要求主備點存儲設備必須兼容, 常用技術有IBM的PPRC, EMC的SRDF等。

硬件復制可分為同步復制和異步復制。同步復制必須在主備點均操作成功后, 才能進行下一個IO操作。同步復制下, 備點數據更新沒有延遲, 實現無損失RPO, 但因增加IO等待的時間, 對生產系統性能有一定影響。同時通信線路和備點存儲故障, 都會造成主點IO失敗。異步復制中, 主點進行IO操作后正常釋放, 不必等待備點操作結果, 鏡像器以后臺方式將IO操作序列發往備點。因此對主點的系統性能幾乎沒有影響。對通信線路的要求也較低。但備點數據有秒級延遲, 災難發生時, 可能出現主備點數據不一致。異步復制可達到災難恢復能力等級5級, 同步復制可達到6級。

(四) 軟件數據復制技術。

利用軟件實現操作系統級的遠程數據復制, 復制的對象可以是文件或邏輯卷。復制軟件在操作系統層面捕獲數據變動, 并在備份系統上重復操作, 實現數據同步。需要主點與備點具有兼容的操作系統, 對硬件的兼容性要求稍低。軟件復制也可分為同步與異步復制, 兩種復制的優缺點與硬件復制類似。由于既可實現文件同步, 也可實現卷同步, 該技術可滿足應用級和數據級災備, 災難恢復能力等級可達到5級以上。代表性軟件有通用型的Tivoli Storage Manager、基于AIX的HAGEO、基于linux的LVR (遠程邏輯卷復制系統) 等。

(五) 數據庫復制技術。

數據庫復制技術經歷過多個階段, 早期技術有基于快照、基于規則、基于觸發器的復制技術?,F階段應用較多的技術稱為SQL復制技術, 它利用復制軟件捕獲主點數據庫日志并傳送到復制服務器, 復制服務器解析日志, 并將其轉換為SQL語句提交到備點數據執行, 從而實現主備點數據同步。與硬件復制不同, 它保證主備點數據庫的數據邏輯上一致。該技術只能同步數據庫數據, 不能同步應用系統文件, 因此適用于數據級災備。各主流數據庫公司都有自己的復制產品, 如ORACLE的SharePlex, DB2的Q復制, SQLserver, SYBASE復制服務器等。由于使用了SQL復制, 一些產品可實現在異構數據庫間進行數據同步。這為主備點軟硬件選擇提供了較大的靈活性。SQL復制也有同步和異步的不同實現。同步復制沒有數據延遲, 異步數據視不同的產品、網絡和事務, 會出現毫秒級到分鐘級的數據延遲。災難恢復能力等級可達到5級以上。

二、數據災備體系設計與實現

(一) 數據災備需求分析。

國家外匯管理局下轄7個數據分中心, 分處廣州、珠海、汕頭、佛山、江門、東莞、中山。各分中心部署核心生產數據庫14個, 數據量從30 G到200 G不等, 均使用SYBASE ASE12.5.2或12.5.4, 部署在Linux或aix等不同平臺上。

核心生產系統包括出口核報系統、外債系統、外匯賬戶系統, 涵蓋轄內所有企業的出口核銷業務、外債登記業務, 銀行的外匯賬戶報送業務。系統中斷會影響部分關鍵業務, 可能給企業造成較大經濟損失。對短時間系統中斷, 業務和用戶有一定容忍度。業務系統重要性劃分為第二類, 災難恢復最低要求RTO<24小時, RPO<120分鐘。

災備系統目前以實現數據級災備為目標, 應用級災備可后期分步實現。布局模式可靈活掌握, 采用多主一備或多主多備模式, 7個數據分中心數據集中備份到1個或2個備份中心, 實現集中管理。災備系統建設應考慮充分利用現有軟硬件資源, 災備過程不能對業務系統性能有明顯影響, 同時不應受網絡帶寬和傳輸距離限制。

(二) 數據災備體系的技術實現。

整個數據災備體系分為本地備份、遠程熱備和遠程冷備 (如圖1所示) 。

1. 本地備份。

災難備份不能替代本地備份。本地備份采用整庫備份、增量備份、文本備份相結合, 數據保存到本地的NAS存儲設備。各分中心自主完成本地備份策略的制定和執行。

2. 遠程數據庫熱備, 是數據災備的主要手段。

在廣州建立熱備中心, 采用sybase數據庫復制技術, 實現對生產庫的異步復制。復制軟件采用SYBASE REPLICATION SERVER12.6, 備份庫DBMS采用SYBASE ASE12.5.4, 均部署在AIX平臺。硬件采用IBMP系列小型機, 通過光纖交換機接EMC存儲, 形成存儲區域網絡 (SAN) , 數據庫存放在存儲設備上, 進一步提高系統容災能力。SYBASE復制服務器實現生產庫到備點庫單向整庫復制, 對生產庫性能影響較小, 對通訊線路要求低, 備點庫與生產庫完全一致, 數據延遲為秒級, 完全滿足二類系統災難恢復要求。

3. 遠程冷備。

利用現有軟硬件, 實現遠程冷備, 作為熱備的補充。冷備中心設在江門, 使用現有磁帶庫設備存放冷備數據。廣州備份中心定期執行dump備份, 備份數據傳送至江門并保存于磁帶庫中。

數據理論論文范文第5篇

關鍵詞:中醫學,數據挖掘,知識發現

1 數據挖掘

數據挖掘 (DM:Data Mining) 作為仍在不斷完善和發展的技術, 到目前為止數據挖掘技術到現在還沒有形成統一的普遍的定義, 目前比較公認的定義為:數據挖掘是從海量數據中提取或“挖掘”出有用的知識[1,2]使用數據挖掘技術可以對這些復雜的定性描述和隱性知識進行挖掘, 揭示其規律并使隱性知識顯性化[3]。數據挖掘[4] (DM:Data Mining) 是一個集合數據庫、數理統計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。不僅計算機學科由于它的出現得到了快速的發展, 并且也能為過程控制、商務管理、科學研究、優化查詢、醫藥研發等領域提供新的方法和注入新的活力, 從而推進各個學科的不斷發展。

2 數據挖掘中的基本概念

2.1 數據集

數據集是從某個環境或過程中取得的一系列測量結果。對于一些基本的情況, 我們有一系列的測量對象, 每一個測量對象都有統一的t個測量數據, 此時可以把這p個對象的一系列測量結果看作是一個p×t的數據矩陣。矩陣中的t列表示對每個對象所作的t種測量, 稱為變量、特征、屬性或者字段。這個數據矩陣中的n行表示被測量的p個對象, 亦可稱為個體、實例、實體或記錄。

1.2模式

模式是一個用語言A來表示的表達式B, 它可用來描述數據集C中數據的特性, B所描述的數據是集合C的一個子集CB。T作為一個模式要求它列舉出數據子集CB中所有元素的描述方法簡單。舉例說明, 例如, “如果考試成績在91—100之間, 則成績優秀”可稱為一個模式, 而“如果成績為91、92、93、94、95、96、97、98、99或100, 則成績優秀”就不能稱之為一個模式。模式有很多種, 按功能可分為預測型模式和描述型模式等。從數據集中發現模式是數據挖掘的主要任務。

3 數據挖掘過程

數據挖掘[4] (DM:Data Mining) 是一個集合數據庫、數理統計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。不僅計算機學科由于它的出現得到了快速的發展, 并且也能為過程控制、商務管理、科學研究、優化查詢、醫藥研發等領域提供新的方法和注入新的活力, 從而推進各個學科的不斷發展。

4 數據挖掘主要方法

數據挖掘從不同的視角看有幾種分類方法, 主要是:根據發現知識的種類分類、根據采掘的數據庫的種類分類、根據應用和根據采用的技術分類分類等[5]。

根據發現知識的種類分類:這種分類方法有:關聯規則挖掘、偏差分析、分類規則挖掘、聚類規則挖掘、序列模式挖掘、趨勢分析等。根據采用的技術分類:最近鄰技術、決策樹、遺傳算法、人工神經網絡、可視化技術) 等。根據挖掘的數據庫分類:關系型、事務型、多媒體、主動型空間型、時間型、面向對象型、文本型、異質數據庫和遺留系統等。

5 在中醫學研究中應用數據挖掘技術的必要性

祖國醫學是中華民族的一顆璀璨明珠, 在幾千年的發展之中積累了中華民族與疾病斗爭的寶貴經驗, 幾千年以來, 我國的傳統醫學積累浩瀚的方劑和豐富的經驗, 是世界上任何國家都無法比擬的。歷代醫家遺留了大量的經典方劑, 這些方劑之中內中蘊涵著豐富的內容, 要繼承和發揚這些名醫名家的學術經驗, 就迫切需要我們運用現代先進的科學技術手段對其進行研究。而今人類社會正在處在大規模、高速度的信息化時代, 信息已經成為人類社會發展、進步和賴以生存的重要資源和基本資源。但是目前, 先進的科學技術尚未能充分利用于中醫藥學領域, 大量寶貴的經典方劑流失, 這嚴重影響了祖國醫學的發展。

在這樣的背景下, 中醫醫學現代化的利用、轉化和傳播的速度及能力是我國傳統醫學現代化發展的關鍵性因素。如果僅單靠“師傳徒學”或個人研讀古代經方揣摩名醫名家經驗信息效率是十分低下的, 并且中醫學的很多征候還具備很強的辯證性, 描述疾病的主觀不確切和證候信息所體現出的客觀不完整, 形成了中醫證候信息的復雜性。這就阻礙了祖國醫學的快速發展, 要實現中醫現代化, 就要將我國豐富的中醫信息資源和現代計算機方法相結合, 整理歸納浩如煙海的古代經典中醫文獻資料, 實現中醫藥信息資源處理、轉化及傳播的現代化?,F有的中醫數據庫中的大量數據為建立中醫學數據挖掘系統提供了充分的基礎, 通過先進的計算機信息處理技術, 建立新的知識體系構建形成新的知識, 為我國傳統中醫學發揚光大提供新的思路。

參考文獻

[1]喬延江.中藥 (復方) KDD研究開發的意義[J].北京中醫藥大學學報.1998, 21 (3) :15-17.

[2]Jiawei Han Micheline Kamber.范明, 孟小峰等譯.數據挖掘概念與技術[J].北京:電子工業出版社.2001, 3-5.

[3]Fayyad U Piatet sky-Shapiro, Smyth, Uthurussm y[Z].Advances in Knowledge Discovery and Data Mining MIT Press.1996.

[4]秦雪君, 施誠.數據挖掘技術在中醫藥領域的應用[J].醫學信息.2006, 19 (5) :28-32.

上一篇:電視文藝下一篇:醫學人文課程

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火