<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據挖掘技術研究范文

2023-09-19

數據挖掘技術研究范文第1篇

摘 要 隨著計算機信息技術的發展,網絡的開放性越來越強,并隨之帶來更大的信息安全隱患。為確保涉密網絡與非涉密網絡之間數據的安全傳輸,基于光纖通信的數據單向傳輸能夠實現數據失泄密的零風險。因此對基于光纖的數據單向安全傳輸的研究具有十分重大的現實意義。

關鍵詞 光纖通信;單向傳輸;數據安全

計算機所展現的巨大便利性使其迅速在各行各業得以運用和普及,網絡信息技術的高速發展是信息化建設成為各部門單位的重點建設項目之一,比如政務網絡、金融網絡、商業網絡等,給人們生產生活打來巨大便利。信息網絡的普及使得信息成為社會主要生產力和重要資源,這也引發了網絡信息安全問題,其中信息在網絡傳輸過程中遭受破壞是其主要潛在安全隱患。為確保信息在傳輸過程中的安全可靠,基于光纖通信的單向數據傳輸成為目前最為安全可靠的技術研究課題。

1 單向安全傳輸技術總述

目前的網絡通信各層協議中,數據通信都是雙向的,尚無實現網絡層面的數據單向傳輸?;诠饫w信息通信的數據單向傳輸是從物理層面出發,利用通信物件的單向物理特征,然后借助軟件設計,共同實現數據不可逆傳輸。這種基于物理硬件的數據傳輸,就目前為止是真正安全的數據單向傳輸技術。單向安全傳輸技術的工作原理是利用外網服務器的光纖網卡,以單模光纖為傳輸介質,運用光電轉換技術,結合光分路器,實現物理層面的數據單向安全傳輸。從數據傳輸速率方面考慮,光纖通信可實現傳統以太網接口等不具備的高速傳輸。

基于光纖的數據單向傳輸技術研究,根據相關設備構成可分為四個層次,即硬件、系統、驅動和單向傳輸。四個層面的設備技術在發送端和接收端同時存在,且之間存在相互邏輯

關系。

2 基于光纖的數據單向傳輸系統實現

2.1 硬件設計

硬件設備分為發送端與接收端,分別由USB2.0接口電路、高速串行收發器電路、邏輯控制電路和千兆光模塊發送(接收)電路組成。USB2.0接口電路、高速串行收發器電路、千兆光模塊發送(接收)電路分別于邏輯控制電路相互連接,前三者又成串聯模式,由USB2.0接口電路連接高速串行收發器電路,高速串行收發器電路連接千兆光模塊發送(接收)電路。為確保數據單向傳輸,硬件設計由物理器件組成,其中發送與接收端分別采用只發光與只收光模塊,除USB2.0端口外,其他硬件部分僅允許單向通信。

為實現高速傳輸及即插即用的功能和操作簡便性,USB2.0接口選用Cypress公司的EZUSBCY7C68013A芯片;選用TI公司的SERDES TLK1501串行收發器芯片來確保數據在光纖設備中的傳輸是單向的,并且通過該芯片實現數據串行化;邏輯控制電路部分,為實現數據實時控制,采用可編程邏輯電路FPGA技術;千兆光模塊需要專門定制只發光與只收光兩種元器件。

2.2 系統功能設計

數據單向傳輸的兩個終端是不同的兩個網絡結構,要想通過物理隔離模式完成兩個不同網絡間的數據單向傳輸,需要具備兩個獨立的平臺,具備四個方面的主要功能。系統配置方面實現通道、目錄配置及設計刪除功能,主要分辨目錄屬性、IP、網卡等參數及數據傳輸速率;系統管理方面主要面向用戶管理,內容包括操作日志,歷史數據管理等;實時監控方面主要實現數據的發送、傳輸、接收等活動的監控,以及數據流量的統計;文件查詢方面實現對發送、接收數據參數屬性等方面的查詢,包括名稱、時間、速率、用途等。

2.3 驅動程序設計

驅動程序設計以EZUSB開發包為基礎,利用EZUSB開發包自帶的固件自動下載驅動和通用功能驅動程序的源代碼,實現數據的自動下載、固件重新枚舉、自動驅動,該程序能夠自動識別EZUSB設備,并通過USB接口完成數據單向下載傳輸。該驅動程序的結構框架如下圖所示。

2.4 單項傳輸業務系統軟件設計

單向傳輸業務系統軟件是面向用戶的部分,以計算機為運行工具,通過用戶的操作實現數據數據交換和單向傳輸。系統軟件的主要功能分為兩部分,一部分是以發送端軟件為主,一部分是以接收端為主,其作用于數據管理交換的整個過程。該程序主要工作部分為發送端和接收端,同時又存在二次開發包,便于用戶針對自身情況做針對性的二次開發。

從發送端看,其是數據單向傳輸的起點,主要作用于數據發送管理,比如系統參數的初始化、數據發送的狀態監測、自動搜索數據文件、文件數據發送和協議打包等。從接收端看,其是數據單向傳輸的終端,主要作用于數據接收,用于管理接收設備的文件操作,工作內容主要包括系統參數初始化、接收單向傳輸過來的數據文件和協議包,解析協議包、將文件進行保存、接收文件狀態的檢測。從二次開發包部分看,其主要作用于系統的維護與升級,能夠在原有功能基礎之上,簡單開發適合自身的應用程序。

3 系統運行狀況

為驗證本系統是否能夠安全可靠的運行,在本單位進行實驗,采用1 km多模光纖,分6項多周期進行驗證,單向傳輸不同大小的數據包,每項數據傳輸重復實驗多次。經過一定實驗周期的檢驗,基于光纖通信的數據單向傳輸系統完全實現了數據從互聯網與內網間的安全單向傳輸,并且其傳輸速率遠大于串行或并行傳輸,且傳輸狀態穩定,取得不錯成效,具有實際推廣運用意義。

參考文獻

[1]杜寧.基于光纖傳輸的數據存儲技術的研究與實現[D].哈爾濱工程大學,2007.

[2]王海洋,凡勇.基于光纖的數據單向傳輸系統設計與實現[J].信息網絡安全,2011(9).

[3]孫楠楠.多點分布式光纖數據傳輸系統設計[D].中北大學,2014.

數據挖掘技術研究范文第2篇

根據目前基礎地理空間數據生產技術發展和用戶的需要, 基礎地理空間數據產品主要包括以下四種基本模式:數字線劃圖 (DLG) 、數字正射影像圖 (DOM) 、數字柵格地圖 (DRG) 、數字高程模型 (DEM) , 簡稱為“4D”。這些產品可根據需要以數字和模擬二種形式提供。根據用戶的需要可形成復合產品, 如數字線劃圖與數字正射影像圖疊加可形成數字影像地形圖。

(1) 數字線劃圖, 簡稱為DLG:是地形圖上基礎要素信息的矢量格式數據集, 其中保存著要素的空間關系和相關的屬性信息。數字線劃圖可滿足各種空間分析要求, 與其他信息疊加, 可進行空間分析和決策。

(2) 數字正射影像圖, 簡稱為DOM:是利用數字高程模型對掃描處理后的數字化的航空像片或遙感影像, 逐像元進行輻射糾正、微分糾正和鑲嵌, 按標準分幅的地形圖范圍進行裁切生成的影像數據, 帶有公里格網和內、外圖廓整飾和注記的影像平面圖, 具有地圖的幾何精度和影像特征。DOM具有精度高、信息豐富、直觀真實的特點, 可作為背景控制信息、評價其它數據的精度、現勢性和完整性;從中可提取自然資源和社會經濟發展信息或派生出新的信息, 可用于地形圖的更新。

(3) 數字高程模型, 簡稱為DEM:是在高斯投影平面上規則或不規則格網點的平面坐標 (X, Y) 及其高程 (Z) 的數據集。為控制地表形態, 可配套提供離散高程點數據。

(4) 數字柵格地圖, 簡稱為DRG:是以柵格數據格式存儲和表示的地圖圖形數據文件。在內容、幾何精度、規格和色彩等方面與地形圖圖形基本保持一致, 可用于DLG數據的采集、評價和更新, 也可與DOM, DEM等數據疊加使用, 從而提取、更新地圖數據和派生出新的信息。

2 基本特征

2.1 數據格式

基礎地理空間數據的數據格式主要分為矢量和柵格二種, 數字線劃圖為矢量數據集, 每一地理要素分別采用點、線、面描述其幾何特征, 并賦予屬性, 同時按要素分類分為若干數據層, 提供地理信息系統做空間檢索、空間分析使用。數字正射影像圖、數字高程模型和數字柵格地圖為柵格數據集, 數據結構就是像元陣列, 每個像元由行列號確定它的位置, 且具有表達實體屬性的類型或值的編碼。

矢量數據能全面地描述地表目標, 可隨機的進行數據選取和顯示, 與其它信息疊加, 可進行空間分析、決策。具有嚴密的數據結構, 數據量小, 可完整地描述數據的拓撲關系, 便于深層次分析, 輸出質量好, 數據精度高, 但其數據結構復雜、技術要求高。柵格數據具有數據結構簡單, 空間數據的疊加簡便, 易于進行空間分析, 相對來說圖形數據量大, 數據和信息量受像元大小的限制。

2.2 基本內容

考慮到基礎地理空間數據采集時間和產品的提供周期, 基礎地理矢量數據可分為三個層次:第一層次分為核心地形要素;第二層次為在核心地形要素的基礎上, 根據各地不同的需要, 選取更多的其它要素 (可選要素) ;第三層次為全部地形圖要素 (全要素) 。

矢量數據的基本內容:大地控制測量數據 (包括平面控制點、高程控制點、天文點、重力點) 、水系及附屬設施、建筑物及附屬設施、交通運輸與管線設施、境界、地表覆蓋、地貌。柵格數據:DEM格網數據, 格網間距5m或12.5m;DOM影像數據, 地面分辨率為1m;DRG圖形數據, 分辨率不低于250dpi。文本數據:地名數據, 含地名位置、類型、行政區劃、經濟信息等;元數據, 說明數據內容、質量、狀況和其他有關特征的背景信息, 是數據自身的描述信息。

3 航空遙感數據生產流程及關鍵技術研究

基于全數字攝影測量的空間數據生產流程如圖1所示。

3.1 資料準備

航攝資料如航攝底片、控制點資料、相關的地形圖、航攝機鑒定表、航攝驗收報告等應收集齊全;對影像質量、飛行質量和控制點質量應進行分析, 檢查航攝儀參數是否完整等。

3.2 影像掃描

根據航攝底片的具體情況, 設置與調整掃描參數, 使反差適中、色調飽滿、框標清晰, 灰度直方圖基本呈正態分布, 掃描范圍應在保證影像完整 (包括框標影像) 的前提下盡可能地小, 以減少數據量。影像掃描分辨率根據下面公式確定。

影像掃描分辨率R=地面分辨率/航攝比例尺分母。

3.3 定向建模

自動搜尋框標點, 放大切準框標點進行內定向, 對定向可由計算機自動完成, 人機交互完成絕對定向如不符合要求, 需重新定向, 直至符合限差要求。

檢查定向精度, 需滿足要求;完成定向后需檢查坐標殘差。

3.4 數據采集

(1) 立測判讀采集, 需嚴格切準目標點要求按中心點、中心線采集的要素, 其位置必須準確, 點狀要素準確采集其定位點, 線狀要素上點的密度以幾何形狀不失真為原則, 密度應隨著曲率的增大而增加。每個像對的數據必須接邊, 自動生成的匹配點、等視差曲線或大格網點、內插的小格網點均需漫游檢查, 保證其準確性, 為提高DEM精度, 需人工加測地形特征點、線和水域等邊界線。 (2) 采集的數據應分層, 進行圖形和屬性編輯, 矢量數據線條要光滑, 關系合理, 拓撲關系正確, 屬性項、屬性值正確;利用DEM數據, 采用微分糾正法對影像重采樣獲得DOM數據。 (3) DEM和DOM數據需進行單模型數據拼接, 檢查拼接處接邊差是否符合要求;同樣矢量數據接邊應符合要求各屬性值要一致, 任何不符合要求的數據均需重新采集, 修改正確的數據按圖幅裁切, 生成最終的以幅為單位的數據, 提供檢查和驗收。

3.5 元數據制作

可由相應的專業軟件進行計算輸入各屬性項中, 無法自動輸入的內容由人工輸入。

摘要:本文研究探討了航空遙感數據產品生產流程及其中所涉及的關鍵技術, 文章首先對空間數據產品的模式和基本特征進行了詳細的闡述, 而后給出了基于航空遙感的空間數據生產流稱, 最后結合筆者工作經驗, 重點探討了流程中所涉及的關鍵技術, 全文既是筆者長期工作實踐基礎上的經驗總結, 同時也是在實踐基礎上的理論升華, 相信對從事相關工作的同行有著重要的參考價值和借鑒意義。

數據挖掘技術研究范文第3篇

1 數據壓縮的必要性和可能性

一幅1024×76、由24位真彩色構成的圖像, 未經壓縮所需存儲空間為2.25兆, 一分鐘24位真彩色、320×240分辨率、25幀/秒的PAL制式的視頻所占存儲空間喂兆29.6兆。由此可以發現, 未經壓縮的多媒體數據量非常大, 如果不對如此巨大的數據量進行壓縮, 無疑將給存儲器的存儲、網絡的傳輸、數據的攜帶和計算機的處理速度帶來極大的壓力。另外, 分析多媒體數據可以發現他們之中存在極強的相關性, 同時還可以根據人的感知生理、心理規律, 利用人對數據或屬性的不敏感性, 除去數據中存在的冗余。

2 數據壓縮編碼方法分類

多媒體數據壓縮方法的本質是算法, 衡量一種壓縮編碼方法的優劣主要有如下指標:壓縮比、壓縮算法實現復雜程度、壓縮和解壓縮速度、解壓后恢復的效果。經過幾十年的多媒體數據壓縮研究, 已經產生了各種各樣的壓縮算法, 并逐漸趨于成熟。按照不同的分類方法, 可以將多媒體壓縮編碼方法劃分成不同的類, 比如, 從基本原理來劃分, 壓縮編碼方法可以分為基于像素或波形的編碼方法和依賴于對人類感知特性的研究的壓縮編碼方法兩大類。猶如按照壓縮后的質量是否存在損失劃分, 可分為有損壓縮編碼和無損壓縮編碼。

2.1 無損壓縮編碼

無損壓縮編碼, 也稱熵編碼, 就是指使用壓縮后的數據進行還原時, 與原數據完全相同, 不存在數據丟失的壓縮編碼, 無損壓縮編碼是可逆和可恢復的。典型的無損壓縮編碼有統計編碼 (包括霍夫曼編碼、算術編碼) 、行程編碼、LZW (Lempel Ziv Welch) 編碼、不進行量化處理的預測編碼。

2.2 有損壓縮編碼

有損壓縮編碼是指使用壓縮后的數據進行還原時, 存在與原數據不同的地方, 存在數據丟失的壓縮編碼, 是不可逆和不可恢復的。主要的有損壓縮編碼有預測編碼、變換編碼、模型編碼以及混合編碼等。

3 靜態圖像壓縮標準JPEG

3.1 JPEG標準的主要內容

ISO/IEC10918號標準“多灰度連續色調靜態圖像壓縮編碼”即JPEG標準選定ADCT (自適應離散余弦變換) 作為靜態圖像壓縮的標準化算法。本標準有兩大分類:第一類方式以DCT (離散余弦變換) 為基礎;第二類方式以二維空間DPCM (差分脈沖編碼調制) 為基礎。

3.2 JPEG靜態圖像壓縮算法

基于DPCM的無失真編碼。為了滿足無失真壓縮的需要, JPEG選擇一個簡單的預測編碼, 這種編碼的優點是硬件容易實現, 重建圖像質量好, 缺點是壓縮比太低, 大約為2∶1。

基于DCT的有失真壓縮編碼?;贒 C T的壓縮編碼算法包括兩種層次的系統:基本系統和增強系統, 而且這種算法還定義了二種工作方式:順序方式和累進方式?;鞠到y采用順序工作方式, 只采用哈夫曼編碼, 解碼器中只存儲兩套哈夫曼表。增強系統除包含基本系統外, 還可采用自適應二進制算術編碼。DCT編碼的基本過程:首先進行DCT正變換, 再對DCT系統進行量化, 并分別對量化后的系數進行差分編碼或游程編碼, 最后再進行熵編碼。

基于DCT的累進操作方式編碼?;贒CT的順序操作方式的編碼過程是一次掃描完成的, 基于DCT的累進操作方式編碼方法基本與順序方式一致, 不同的是, 累進方式中每個圖像份量的編碼要經過多次掃描才完成。為了事先累進操作方式, 需在量化器的輸出與熵編碼的輸出之間, 增加一個足以存儲量化后DCT系數的緩沖區, 對緩沖區中存儲的DCT系數多次掃描, 分批編碼。通常有兩種累進方式, 頻譜選擇法和按位逼近法。

基于DCT的分層操作方式。分層方式是將一副原始圖像的空間分辨率, 分成多個分辨率進行“錐形”的編碼方法, 水平 (垂直) 方向分辨率的下降以2的倍數因子改變。

4 運動圖像壓縮標準MPEG

4.1 MPEG-1系統

MPEG-1標準名為“用于大約高達1.5Mbps速率的數字存儲媒體的運動圖像及其伴音編碼”。MPEG-1壓縮的基本方法為:在單位時間內首先采集并保存第一幀圖像的信息, 此后在對單幀進行有效壓縮的基礎上, 只存儲其余幀圖像中相對第一幀圖像發生變化的部分, 以達到圖像數據壓縮的目的。它包括時間上的壓縮和空間上的壓縮兩個方面。MPEG-1采用的是有損圖像質量的非對稱壓縮算法, 壓縮時間 (大約幾十小時) 遠遠大于解壓時間 (1個多小時) 。壓縮只有一次, 需大量運算, 進行圖像的比較分析, 而解壓可有上千次, 運算量較少。

4.2 MPEG-2數據壓縮標準

MPEG-2是建立在MPEG-1的基礎上、以提高圖像質量為目標的通用國際編碼標準, 共包括系統、視頻、音頻、符合性測試、軟件、數字存儲媒體的指令和控制、非向后兼容音頻、10比特視頻、實時接口等9個項目。其中第1到3部分作為MPEG2的核心, 已在1994年11月正式公布執行, 其它的部分將在1995到1997年陸續公布。MPEG-2的壓縮方法與MPEG-1的方法相似, 基本算法相同, 但增加了場間預測。MPEG-2的傳輸碼率可以調整, 支持從可視電話到HDTV多種應用, 針對不同的用途, MPEG-2標準又分為4個等級和5個檔次。

4.3 MPEG-4數據壓縮標準

MPEG-4即“甚低速率視聽編碼”標準是針對低速率下的視頻、音頻編碼和交互播放開發的算法和工具, 其顯著特點是基于內容的編碼, 更加注重多媒體系統的交互性、互操作性和靈活性。MPEG-4對每個視頻對象的形狀、運動和紋理信息進行編碼形成單獨的視頻對象, 以便能夠單獨對視頻對象進行解碼。與MPE G-1和MPE G-2相比, MPEG-4更適合于交互視聽服務, 它的設計目標使其具有更廣的適應性和可擴展性, 應用在數字電視、交互式圖形應用、實時多媒體監控、移動多媒體通信、Internet/Intranet上的視頻流傳輸, 可視游戲、交互多媒體服務等方面。

摘要:隨著多媒體技術的發展, 多媒體計算機系統要傳存儲、處理、傳輸的數據量越來越大, 由于多媒體數據中存在壓縮的必要性和可能性, 因此數據壓縮技術是目前尚需解決的一個迫切的問題, 本文主要討論多媒體數據編碼和壓縮技術, 側重于數字圖像壓縮技術的研究。

關鍵詞:多媒體,數據編碼,數據壓縮,算法

參考文獻

[1] 馬華東.多媒體技術原理及應用[M].北京:清華大學出版社, 2002.

[2] 張小川.多媒體實用技術[M].北京:電子工業出版社, 2005.

[3] 鐘玉琢, 等.多媒體計算機技術基礎及應用[M].北京:高等教育出版社, 2005.

數據挖掘技術研究范文第4篇

近年來,隨著計算機硬件價格的急速下降、通信技術的飛速發展,計算機在各個行業的應用的逐漸普及。 同時,由于各行各業的大量數據需要處理并且基本都建立了相應的數據倉庫, 這些數據都只是具有表面特性,還沒有得到有效利用。 通過在平時的工作和學習中,我們發現,在深入研究后,這些數據就猶如有個大“寶藏”,里面蘊藏著很多重要信息。 數據挖掘(Data Mining, DM)技術就是通過對海量數據信息資源的篩選和和深層次的發掘,發現其中隱含的各種潛在信息。 本文以遺傳算法為數據挖掘的基礎,初步其數據挖掘技術反洗錢應用問題[1]。

2數據挖掘概述

2.1數據挖掘的概念

數據挖掘是通過分析每個數據,從海量的、不完全的、有噪音的、模糊的、隨機的實際應用數據信息中提取隱含在其中的、 人們事先不知道的, 但又是潛在有用的信息和知識的技術,主要有數據準備、規律尋找和規律表示3個步驟。 數據挖掘是數據庫與人工智能技術相結合的產物,是目前國際上數據庫和信息決策領域最前沿的研究方向之一,其典型系統結構如圖一所示:

2.2關聯分析介紹

數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等,其中數據關聯分析是數據挖掘的重點。 數據關聯是數據庫中存在的一類重要的可被發現的知識。 如兩個或多個變量的取值之間存在某種規律性,就稱為關聯。 關聯分析的主要目的是找出數據庫中 隱藏的關 聯網 。 Agrawal等學者與1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,以后諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。 他們的工作包括對原有的算法進行優化,如引入隨機采樣、并行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。 關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。

設I={i1,i2,… ,im}是項集合 ;T={t1,t2,… ,tn}是事務集合 。 在事務集合T中,包含AUB的事務占全部事務的百分比稱為T中關聯規則A->B的支持度,記為support(A->B)=P(AUB)=s。 在事務集合T中,包含AUB的事務占包含A的事務的百分比稱為T中關聯規則A->B的置信度,記為confidence(A->B)=P(B|A)=c。

3遺傳算法的基本原理和作用

遺傳算法(Genetic Algorithm - GA)是當前國內外比較流行的關聯規則挖掘的主要方法, 是對遺傳選擇和自然淘汰的生物進化 過程的模 擬 , 最早于1975年被美國Michigan大學的Holland J. 教授提出[2], 其包括5個基本要 素 : 1參數編碼 ; 2初始群體的設定;3適應度函數的設計;4遺傳操作設計; 5控制參數設定。

遺傳算法的核心是遺傳操作技術, 該技術的主要功能有以下三方面實現:

(1)選擇算子 :該操作屬于選擇淘汰行為 。 從群體中對優勝的個體進行保留,從而淘汰掉劣質的個體。 其目的是吧優勝的個體特性遺傳到下一代個體之上。 當前常用的選擇算子有很多方法,比如常見的有適應度比例方法、排序選擇法、排擠法等等[3]。

(2)交叉算子 :該操作是對兩個父代個體的部門結構用替換重組的方式生成新個體,其目的是得到更優良的基因座個體。 國內研究比較普遍的是基于字符串編碼的交叉方法。

(3)變異算子 :該操作是對個體的某些基因座進行基因值改變, 其目的是使得遺傳算法具有局部的隨機搜索能力, 通常比較流行的變異算子有基本變異算子、逆轉算子等。

遺傳算法作為數據挖掘的重要方法, 其基本步驟可以用圖二來描述[4]:

遺傳算法具有和強的魯棒性,在解決大空間、多峰值、非線性、 全局優化等復雜度高的問題時具有獨特的優勢, 因此在數據挖掘中具有很高的研究價值。

4遺傳算法在反洗錢中的應用

本文以西南 ** 大型圖書銷售集團為例,在該銷售集團的銷售數據中使用基于遺傳算法的數據挖掘技術, 尋找最佳圖書銷售模式和圖書貨架擺放方式,以提高集團銷售數量。 已知客戶購買信息數據如表1:

根據客戶購買數據, 本論文定義4個染色體來定義客戶購買信息類型,即:1圖書大類編碼分為15種,采用二進制編碼為4位 (2^4);2圖書小類編碼分為8種 ,也采用3為二進制進行編碼;3單價分為三種,高、中、低,分別用00、01、10表示;4購買數量分為兩種:批發和零售,分別用00、10表示。

遺傳算法中需要設計的有染色體個體編碼、初始種群、適應度函數、選擇算子、交叉算子、變異算子等,其關鍵參數又包括群體規模n、交叉概率Pc、變異概率Pm、代溝G等,這些對遺傳算法都會有很大的影響,因此必須詳細考慮和設計。本論文從遺傳操作的三個主要方面進行設計, 選擇相應的交叉概率和變異概率,設計出符合圖書銷售模式的函數,找到最佳的圖書貨架擺放方式[4]。

\"\"

(1)選擇算子 :首先按照期望值 的整數部分進行取值,如果配對和交叉成功,則下一代期望數目減0.5;反之減1,然后將期望值按照大小進行列表,從大到小一次選擇, 直到選滿為止。

(2)交叉算子 :采用通用的兩點交叉方式 。

(3)變異算子 :采用基本的變異算子 ,對銷售數量基因以小于5的隨機整數進行變異。

(4)變異概率Pm:變異概率Pm控制新基因的導入比例 ,因此過高或者過低都會造成后代失去雙親繼承的好特性, 通過采用自適應調整的Pm:

其中,fmax是群體最大適應度,favg是群體平均適應度。依據經驗值,在圖書銷售管理中,變異概率通常取得0.05比較合適。

(5)交叉概念Pc:交叉概率Pc是控制交換操作的頻率 , 比較高的Pc可以達到比較大的解空間,但是如果太高又會損耗大量的時間在對解空間的搜索上,因此同樣采用自適應調整的Pc來進行計算:

其中,fmax是群體最大適應度,favg是群體平均適應度,xmax是某次參與交叉操作中比較大的一個。依據經驗值,在圖書銷售管理中,交叉概率通常取得0.8比較合適。

(6)適應值函數的設計 。

首先用支持度來定義規則,其規則的適應值函數f(x)可以用下式求出:

上式中,Sj是經過遺傳操作后形成的一條新染色體規則Rj的支持度;S為用戶給定的支持度的閥值。

(7)算法方案 。

a. 初始化隨機生成一個規模為n的初始群P={A1,A2, … , An};獲取銷售出庫單支持度S,置信度C。

b. 對當前種群中的每個個體計算適應值 :f(A)=S’/S,根據適應值對個體進行篩選;如果f(A)>1則保留該規則進入下一代,否則刪除,并計算保留下來的個體數m。

c. 如果m

d. 按照交叉概率進行交叉 ;按照變異概率進行變異 。

e.判斷是否滿足終止條件 ,滿足則結束計算并輸出結果 ,否則跳至步驟b。

f.進行規則提取[5]。

5數據挖掘結果

通過以上給出的遺傳算法和設定的相關參數,對西南 ** 圖書商城的銷售出庫清單進行數據挖掘, 我們可以方便圖1的挖掘結果。

從圖中,我們可以看出,圖書編號為0001(嬰幼兒讀物類) 和編號為0010(食譜類讀物)之間的關聯程度非常高,也就是說購買嬰幼兒讀物和食譜類讀物的讀者同時購買兩類書籍的概率非常高。 從日常生活中,我們也可以很容易分析得到:購買嬰幼兒讀物的一般為家庭主婦或者還在照料小朋友的婦女, 他們一般都經營全家的飲食也有很高的興趣。所以,書城可以把這兩類書籍靠近擺放,這樣對于提高銷量有一定的幫助。 同樣,圖書編號為0110(軍事類讀物)和編號為1101(建筑類讀物)也具有相當高的關聯程度,而編號為0011(文學類讀物)和編號為1001 (醫學類讀物 )關聯程度比較低 ,這兩類圖書可以分開擺放 。

6結語

本論文通過基于遺傳算法的數據挖掘技術,對西南 ** 商城的圖書銷售出庫清單進行了相關的數據分析。根據最后的結果, 可以得出基于遺傳算得的數據挖掘方法是有效的, 在圖書銷售的應用中也是成功的。通過算法的實現和分析指導,我們可以盡量通過擺放圖書的位置,來提高消費者的購買興趣,最終提高圖書銷售量。

摘要:基于遺傳算法的數據挖掘技術是當前比較流行的海量數據分析方法。本文通過對數據挖掘相關概念、遺傳算法的基本原理進行介紹和分析,采用合理的遺傳算法和設定相關的參數,最后得出合理的數據處理結果,旨在為反洗錢應用提供數據支持。

數據挖掘技術研究范文第5篇

交通大數據平臺架構主要由三大技術模塊組成:首先是交通數據的采集, 也是架構中最核心的部分;采集完畢后則需要對采集到的數據進行分析以及處理以供相關交通管理部門或者車輛駕駛員對數據進行使用。

(一) 交通大數據信息采集模塊

交通大數據信息采集是平臺架構中最為關鍵也是最為核心的內容, 通過移動通信技術、車聯網設備、高清監控以及云計算平臺等, 實現對交通大數據信息的全面采集。獲取車輛各項基礎信息, 包括:車輛的定位, 行駛數據, 車輛狀態, 周邊路況信息等。采集數據是交通大數據平臺技術環節中最為關鍵的一步, 要求的數據準確性, 精度很高, 一旦數據信息采集錯誤, 就會導致嚴重后果, 甚至威脅到人民的生命財產安全。

(二) 交通大數據分析模塊

交通大數據采集完畢后, 下一步就是對采集上來的車輛行駛數據進行分析, 這項技術重要性僅次于采集技術。采用的方法是通過大數據挖掘技術、數據可視化分析、數據庫分析等多種只有大數據具有的分析方法, 把結構化、非結構化以及多結構化交通大數據整合到大數據后臺管理系統并對數據進行實時分析后, 產生出對交通主體決策和判斷有價值的信息, 方便交通管理部門、交通各個領域的使用者以及社會公眾對交通狀況進行維護管理。后續方便提高交通信息服務質量, 優化出行方案, 實現交通領域的智能化提升與發展。

(三) 交通數據處理模塊

通過對交通大數據進行分析后, 下一步則需要對數據進行處理。交通大數據相對于其他領域的數據具有數據量大、分布廣的特點。數據處理模塊就是通過具有一定規模的計算中心以及完整的計算框架, 實現高性能的強大數據處理和分析。由于交通數據分實時交通數據以及歷史分析數據, 所以交通數據處理模塊分兩種框架, 實時計算框架處理實時交通數據流, 非實時計算框架處理歷史分析等批處理數據, 雖然處理方式不同, 但是最終展現給用戶的數據是相同的, 目的都是提供給相關交通管理部門使用的。

二、技術實現

大數據交通信息采集技術, 主要有靜態交通信息采集方式和動態采集方式。靜態采集方式的核心技術主要概括為:利用固定在道路的感應線圈或視頻監控, 將安裝在路面下的一個或多個感應線圈產生電磁感應, 然后檢測通過的車輛行駛信息。動態交通信息采集方式則是通過, 磁頻、微頻、光電等檢測器、路面情況及測重傳感器等自動采集交通實時流量、車輛速度、時間、交通事故等交通參數來實現。交通大數據平臺通過整合不一致的原始上傳交通數據信息, 建立起統一的視頻、圖形、圖像接入平臺, 然后對數據進行抽取、集成以及深度的分析, 為交管部門和汽車用戶提供可用的信息和知識, 方便對交通信息進行及時管控。

三、大數據技術應用實例

涉及到大數據應用方面有很多, 如果要把所有應用實例都列舉出來, 不是一兩篇文章所能完成的, 本文針對一款面向終端用戶的智能交通終端軟件“智駕行”來闡述下大數據技術在實際中的應用實例。首先介紹下這款軟件所要實現的功能:“智駕行”是一款典型的車聯網大數據方面的軟件應用, 硬件是以安裝在汽車上的OBD終端為載體, 通過硬件設備傳輸行駛數據到大數據平臺, 后臺對數據進行分析處理后, 通過終端面向用戶的軟件展現給用戶, 用戶可以通過軟件實時查看車輛以及路況的信息, 為出行提供幫助。涉及到大數據的主要有: (1) 記錄行車過程的駕駛數據, 包括:行車油耗、行車產生的油費、總里程、總時間、每個行程的碳排放等駕駛行車數據自動記載, 為汽車用戶的駕駛行為習慣提供可靠性出行分析建議, 幫助駕駛員改善開車不良習慣。 (2) 建立車輛健康檔案, 充當私人智能車醫生, 車主通過查看該終端APP軟件相關菜單功能項可以實時掌握所駕駛車輛的發動機、冷卻液、變速箱、燃油、電瓶、節氣門狀況。 (3) 該車聯網軟件全方位提供了安防提醒功能, 車輛實時定位信息、碰撞提醒消息提醒、車輛異常報警、車輛故障、震動、電壓、點火、駛入駛出所設置的圍欄等多項提醒功能, 同時車輛管家還為車主保駕護航, 實現安全出行的保護。 (4) 精彩車生活導航、挪車隱私保護、緊急救援、路書游記記錄、車輛行駛軌跡記錄數據、商旅預定、上門維保、找代駕、附近停車、違章查詢功能在該APP內可以通過大數據傳輸技術直接顯示給車主。支撐智駕行APP運行的系統有:OBD車載終端、大數據后臺管理系統 (主要對車輛上傳, 采集的數據進行分析處理, 然后以用戶便于理解的方式反饋給車輛用戶, 實時掌握車輛的狀況) 、智駕服務平臺、智駕坐席系統 (主要提供緊急呼叫救援、車輛故障等一系列人工服務) 、智駕4S服務系統 (提供車輛保養, 維修等服務) 五部分組成。

四、結束語

隨著越來越多的人涌入大城市, 隨著帶來的城市交通問題也越來越嚴峻, 路況擁堵, 事故頻繁發生給相關交管部門帶來就大壓力, 智能交通大數據的出現及時緩解了這個問題, 為交通管理部門提供了極為有價值的交通大數據。雖然目前智能交通大數據技術還處于發展中階段, 技術還不算太完善, 但也很大程度上緩解及解決了關于交通方面的諸多問題, 很大程度上提高了人們生活質量保障。后續隨著科技的快速發展, 未來智能交通大數據技術將越來越趨于完善。

總之, 有效及時的引入交通大數據技術, 是一項利國利民的舉措, 交通大數據技術研究與開發任務是艱巨的, 需求迫切度也是很大的, 未來發展前景一片光明。

摘要:隨著交通的快速發現, 車流量數據、違法數據和道路設施信息正常速度不斷加快, 傳統數據庫技術在數據存儲和業務處理性能上已經無法滿足龐大數據需求, 而大數據處理平臺很好的解決了該問題。本文首先介紹說明了大數據架構的組成部分, 然后闡述了交通大數據的技術實現, 最后實例說明大數據技術在交通領域的具體應用實例。通過對智能交通大數據分析和挖掘, 實現了智能交通管理優化的目的, 更好地實現了決策科學化和出行智能化。

關鍵詞:智能交通,大數據分析平臺,智駕行APP大數據

參考文獻

[1] 王寶云, 物聯網技術研究綜述[J].電子測試與儀器學報, 2009, 23 (12) :1-7.

[2] 邱衛云.智能交通大數據分析云平臺技術[J].中國交通信息化, 2013 (10) :106-110.

數據挖掘技術研究范文第6篇

(1) 目前開展的旱情監測主要還是停留在氣象災害層面上, 還沒有深入到農業層面, 現有的監測僅是氣象災害或災害性天氣的監測, 僅知道哪里有旱情發生, 但這種旱情能否成為農業災害, 還不能確切地得知。

(2) 隨著遙感傳感器的發展, 用不同的傳感器獲取數據成為可能, 但是旱情監測對于遙感數據的選擇有一定的限制??臻g分辨率提高, 則微觀尺度監測的結果精度會提高;時間分辨率提高, 對各種突發性、快速變化的自然災害有更強的實時監測能力。一般空間分辨率越高, 時間分辨率就會降低。因此, 在遙感數據的選擇上需要考慮空間和時間上的折衷, 這取決于旱情監測范圍、精度要求以及旱情自身的特點等等。例如, 小范圍的監測可以選擇TM數據或雷達數據計算反映旱情的指標, 全國范圍內的監測可以選擇NOAA/AVHRR數據或MODIS數據。由于干旱是一個累積的過程, 如果有一個長時間序列的遙感數據進行干旱的監測, 就可以很好的監測旱情的發展趨勢, 為決策提供更加可靠的信息。遙感數據多通道信息可以增強對地球復雜系統的觀測能力和對地表類型的識別能力。在考慮遙感數據空間分辨率和時間分辨率的前提下, 也要充分利用遙感數據提供的多光譜信息。因此, 實現全國范圍內的旱情監測, 遙感數據是否容易獲取也是旱情監測最后能否運行的一個決定因素。

(3) 目前利用遙感數據計算各種能直接或間接反映干旱情況的物理指標, 己形成了很多種方法。但是干旱的發生由眾多因素決定, 而旱災更為復雜, 涉及農作物生長及其對水分的時空需要變化。因此, 指標的選取也是旱情監測最后能否運行的一個決定因素。各種指標都有自身的優缺點, 例如, 有些對于作物的監測比較好, 有些對于裸土監測效果比較理想;有些指標容易計算, 但考慮的影響因子比較少, 有些指標考慮的影響因子比較全面, 但太過于復雜, 使得全國范圍內的計算難以實現。因此在指數的選取上不僅要體現對作物旱情監測的優勢, 而且要考慮指數在全國范圍內的計算是否可以進行。

1 國內遙感旱情監測指標反演進展

我國對VCI和TCI兩人指數的應用都相對晚一些, 蔡斌等用VCI參照當時降水對全國1991年春季干早進行了監測和研究, 使用的是1985年至1991年的NOAA全球標準化植被指數資料, 時間分辨率為7天。選取出中國范圍內的NDVI時間序列數據, 并對NDVI時間序列資料采用中值濾波法來去除噪聲然后計算NDVI最大值和NDVI最小值。馮強等在基于植被狀態指數的全國干早遙感監測試驗研究中, 使用的是1981年至1994年的NDVI時間序列數據, 空間范圍覆蓋全國, 空間分辨率為8km, 時間分辨率為10天。但是在計算NDVI最大值和最小值時首先將NDVI歷史數據從8km重采樣為1.1km。馮強等在基于植被狀態指數的土壤濕度遙感方法研究中使用的數據與上述一樣。

2 某地區遙感旱情監測指標反演

遙感技術提供了豐富的信息, 從可見光到短波, 再到熱紅外, 最后是微波。1990年以來, 利用各波譜段數據計算各種反映干旱指標的方法己經有很多, 例如NDVI、距平植被指數、植被狀態指數 (VCI) 、溫度條件指數 (TCI) 等等。最近十年里, 遙感監測干旱的方法的研究有以下三個特點, 一是使用己有的指數, 如NDVI、VCI、TCI、CWSI和TS/NDVI等等。計算的原理相同, 使用的數據空間時間分辨率不同, 或是計算時參數的處理方法不同或是模型的不同;二是根據已有的原理, 提取新的指數, 如VTCI、VTDI、DSI等等;三是遙感與氣象或是水文數據結合建立的新的指數如BMVCI等等。借用某種氣象或水文指數, 分析其原理并將其中一些參數用遙感數據代替得到新的指數。

現將最近幾年中用于旱情監測的幾種主要方法的原理分別介紹如下。

(1) 距平植被指數法。

歸一化植被NDVI是迄今為止應用最廣的一個植被指數。很多衛星遙感數據都提供了計算這個指數所需的通道信息, 以MODIS為例, 計算式為:

其中1ρ為第一波段 (紅波段) 的反射率, ρ2是第二波段 (近紅外波段) 的反射率.它可以反映植被的長勢, 可以間接反映旱情。

距平植被指數, 指某一年某一特定時期NDVI與多年該時期NDVI平均值的差值。計算式如下:

\"\"

式中, ANDVIj為某年內j時的NDVIj距平指數, NDVIj為某年內j時的為多年內j時的NDVI平均值??梢杂眠@個差值來反映偏旱的程度。多年平均值可以近似反映土壤供水的平均狀況。因此NDVI資料的時間序列越長, 計算得到的平均值代表性才會越好。

本文所用數據是2009年4月與7月的MODIS月合成的NDVI產品。MODIS數據的幾何糾正和鑲嵌是用USGS EROS數據中心開發的MRT幾何糾正軟件進行的。得到該地區的每月合成數據后, 生成生長季4月與7月的ANDVIj數據 (圖1) 。從圖上可以看出, 7月份相對于4月旱情有所緩解。

(2) 植被狀態指數法。

在不同地區, 因為不同區域作物生長季處于不同階段, 需水情況不同, 旱不旱不能通過NDVI值的大小來說明, 而NDVI與歷史平均值的偏差, 又弱化了天氣的影響。

NDVI的變化受天氣的影響, 尤其是類似嚴重干旱的極端天氣現象時, 會遠遠超過正常年際間的NDVI變化, 有可能造成某一特定時期內不同像素間監測結果的可比性變差。為了反映天氣極端變化情況, 消除NDVI空間變化的部分, 使不同地區之間有可比性, Kogan提出了植被狀態指數VCI。定義如下。

其中, VCIj為j時的植被狀態指數;NDVIj為j時的NDv工值;NDVImax為所有圖像中最大的NDVI值;NDVImin為所有圖像中最小的NDVI值。VCIj是NDVI在j時的相對于最大NDVI的百分比。Kogan假設植被NDVI最大值在最佳的天氣中得到 (考慮到土壤營養的吸收, 天氣條件可以刺激生態系統資源的利用) , 最小值在非有利的情況下得到, 如干旱和熱, 通過生態系統資源的減少 (干旱年缺水減少了土壤營養的吸收) , 直接抑制了植被的生長。這樣, 如果有足夠長時間的NDVI序列數據, 就可以從中提取出NDVImin和NDVImin, 反映出極端氣候狀況, 計算的VCI結果在不同地區的比較更為合理。VCI是基于NDVI反演得到的, 因此對植被的監測效果比較好, 作物播種或收割后的時間, 監測效果比較差。

本文所用數據是2009年4月與7月的MODIS月合成的NDVI產品。MODIS數據的幾何糾正和鑲嵌是用USGS EROS數據中心開發的MRT幾何糾正軟件進行的。得到該地區的每月合成數據后, 生成生長季4月與7月的VCIj數據 (圖2) 。從圖上可以看出, 7月份相對于4月旱情有所緩解。與ANDVIj反映的趨勢基本相同。

3 結語

本文應用MODIS數據對南方某地區的旱情進行了監測, 以作物生長季的4月和7月作為對比, 分析了, 及NDWI三個指標的變化趨勢。相信對從事相關工作的同行有著重要的參考價值和借鑒意義。

摘要:本文基于筆者多年從事遙感減災應用的相關工作經驗, 以基于MODIS數據的遙感旱情監測為研究對象, 以某地區生長季的4月和7月為研究背景, 分析了ANDVIj, VCIj及NDWI三個指標的變化趨勢, 給出了該地區旱情的變化趨勢, 全文是筆者長期工作實踐基礎上的理論升華, 相信對從事相關工作的同行有著重要的參考價值和借鑒意義。

關鍵詞:MODIS,遙感,旱情,NDVI

參考文獻

[1] 楊玉永, 郭洪海, 隋學艷, 等.山東省小麥主產區旱情遙感監測系統的構建[J].科技創新導報, 2009 (1) .

上一篇:參觀圖書館心得體會范文下一篇:疫情期間工會總結范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火