<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

網頁數據庫數據導入論文范文

2023-09-26

網頁數據庫數據導入論文范文第1篇

互聯網的迅速發展給人們帶來了無窮無盡的信息, 一方面, 大家都嚴重依賴于網絡, 許多的信息都保存在Internet網站數據庫中, 即數據存儲;另一方面, 大家都通過Internet訪問網站數據庫中的信息, 即數據訪問。傳統的數據處理模式是基于B/S模式的, 其數據存儲方式與數據表示上有明顯缺陷, 不能分開進行操作, 數據處理的效率低下。用戶訪問數據一般通過網頁形式提交數據訪問, 服務器接收到服務請求后進行同步處理, 當服務器返回結果給用戶之前, 用戶一直處于訪問等待狀態。使用XML數據島及AJAX技術可以讓數據服務器進行異步處理, 使用戶無需等待就可以進行頁面局部刷新來顯示信息, 同時XML數據島可以很好地顯示數據信息內容, 即可對數據信息進行轉換, 方便用戶理解。

1 XML語言及數據島

XML (Extensible Markup Language) 可擴展標記語言, 用來傳輸和存儲網頁數據。XML語言因具有良好的數據表示性能而廣泛使用在數據交換中, XML文件的內容和結構分離, 具有良好的可擴展性、可移植性、可描述性, 使其得到了跨平臺跨系統的使用。

數據島 (data islands) 是指存在于HTML頁面中的XML代碼。數據島允許你在HTML頁面中集成XML, 對XML編寫腳本, 不需要通過腳本或標簽讀取XML。幾乎所有能夠存在于一個結構完整的XML文檔中的東西都能存在于一個數據島中, 包括處理指示、DOCTYPE聲明和內部子集。用戶可以通過XML標簽輕松實現數據轉換植入HTML文件中, 通過XML的標簽來訪問數據島中的數據信息。其優點是可以輕松地進行數據綁定, 無需人工把數據填充到HTML中, 對數據進行修改時要直接修改數據島中的數據就可實現與之綁定數據的修改操作。

2 AJAX技術

AJAX技術是 (Asynchronous Java Script and XML) 的簡稱, AJAX技術在創建交互性網頁應用程序時, 起到快速響應的作用, 而且其獨立于網絡服務器軟件的網頁瀏覽器技術, 它采用一種異步交互過程來實現網頁應用服務, 大多時候我們只要通過AJAX就可以使用Java Script對象的XMLHttpRequest直接與網站服務器進行通信。

從理論上來說AJAX是一種基于Web的開發技術, 其原理是在客戶端和服務器之間建立一個中間層, 用戶通過javascript提交訪問請求到AJAX, AJAX實現與服務器交互, 通過調用AJAX引擎向服務器發出訪問請求, 當服務器給出響應后, 從服務器中接收XML形式的數據, 再通過javascript腳本來返回給用戶, 完成頁面請求并更新, 從而實現用戶與服務器訪問異步操作。其原理圖如圖1所示。

3 XML數據島實現數據刷新顯示

具體實現步驟如下:

4 結語

在網絡應用中, 數據表示關系到數據訪問結果理解程度的關鍵因素, XML語言以其出色的數據顯示能力在數據內容與形式分離方面起到重要作用, 本文結合AJAX動態異步響應技術, 使用戶與服務器訪問時可以動態更新, 快速響應, 因此降低了網絡負載提高了數據訪問速度, 使用戶體驗達到完美。

參考文獻

[1]游麗貞, 郭宇春, 李純喜.Ajax引擎的原理和應用.微計算機信息, 2006 (6) :205-207

網頁數據庫數據導入論文范文第2篇

1 大數據與大數據量文件

“大數據”一詞最早出現于2001年Gartner的研究報告, 其定義至今仍沒有統一的說法, 一般認為就是應用新技術對海量的、結構復雜的、內容多樣的數據集, 實現了傳統軟件無法達到的處理效果。大數據量文件屬于大數據的一個方面, 但大數據不僅僅只是指數據量大, 它還有數據種類多樣和要求實時性等特點。大數據類型繁多, 包括文本形式、音頻、視頻、圖片等類型, 越來越多的研究者開始重視大數據帶來的變化, 研究大數據背后的特點、規律等。網絡日志是一種典型的大數據, 只是網絡日志是以文本形式存儲的結構化數據, 中小企業或部門一天的網絡行為記錄一般都超過了百萬條, 甚至更多。使用者普遍將數據記錄集以時間或其他分類方式進行分類, 各塊分散存儲于多個文件, 諸如Excel、txt等文件類型, 此類文件記錄都有萬條以上, 文件數量較多, 并且大多文件格式和內容都遵循同樣的標準規范。

2 多個大數據文件導入數據庫的原則及方法

2.1 導入原則

(1) 對于多個大數據量文件的導入, 首先應確定統一的導入標準, 同類型數據可以一次性導入, 不同類型的數據應作分類導入;

(2) 數據源與目標應保持一致, 包括目標數據的字段數量不能超過數據源, 目標數據的字段類型同樣要與數據源保持一致性。

2.2 導入方法和步驟

(1) 查找到對應文件夾的源文件。瀏覽對應的源文件夾, 讀取該文件夾下的所有的預設文件類型的數據文件名, 并將有效的文件名記錄到列表或者存儲到文本文件中。

(2) 獲取數據源文件列表。一般情況下, 同類型且同字段格式的放到一個文件夾下, 因此, 該文件夾下的所有文件的字段都是一樣的, 只需要讀取文件名列表的第一個文件的所有字段, 之后其他文件的字段就不需要重復讀取, 將這些數據源字段列舉到新的列表中由用戶挑選需要導入的字段。

(3) 準備目標數據庫和目標數據表。由用戶來選擇要導入到的目標服務器位置, 如果是本地的服務器輸入計算機名或IP地址即可, 異地服務器需要輸入對應的服務器IP地址。服務器連接成功后, 繼續選擇該服務器下的數據庫列表, 以及所選數據庫下的數據表列表。

(4) 確定數據源與目標字段。根據需要結合數據源文件的字段列表和目標數據表的字段列表, 確定數據源文件的字段和目標數據表的字段, 舍棄不需要的字段, 但應注意雙方字段數量和字段類型要一致。

(5) 生成導入新記錄的表達式。根據數據源和目標字段, 自動生成新的數據導入操作表達式, 避免步驟6重復多次生成表達式, 節省資源減少時間開銷。

(6) 按照數據源文件列表逐個打開、讀取數據源文件記錄, 將需要導入的字段逐個導入到目標數據庫。

1) 每次讀取整個源數據表, 將源數據表整個的一次性導入到目標數據表。

2) 每次讀取源數據表的單條記錄, 將源數據表逐條記錄導入到目標數據表。

3 實驗

本次實驗以VB為平臺, 實現多個Excel大數據文件導入到SQL Server數據庫。對多個Excel大數據文件 (同一批數據的格式相同) 選擇性讀取某些需要的字段, 合并導入到SQL Server數據庫中, 包括文件夾下的Excel文件查找、選擇數據源和目標數據庫和字段、數據導入過程等內容。

3.1 準備

Windows操作系統下Visual Basic6.0、Microsoft SQL Server數據庫 (2000版本及以上) 、Microsoft Excel (版本在2003以上) 、Excel數據文件 (如圖1) 、目標數據庫和數據表 (如圖2) 。

3.2 界面設計

打開Visual Basic6.0應用程序, 新建工程, 在form1中界面設計如圖3所示。

3.3 代碼編寫

本實例需要打開Excel文件并用到了Commandialog控件, 因此要先引用“Microsoft Excel 12.0 Object Library”和添加部件“Microsoft Common Dialog?Control (sp6) ”。由于篇幅關系, 只列出“瀏覽文件夾”和“執行導入”按鈕的部分內容。

3.3.1“瀏覽文件夾”按鈕的部分代碼

上述代碼的功能是瀏覽所選文件夾下的所有“.xls”文件并添加到列表5中, 默認打開第一個.xls文件的第一個工作表, 并將工作表的所有字段添加到列表4中。

3.3.2“執行導入”按鈕

方法一:

此方法將文件夾下的.xls文件以工作表為單位, 逐個導入到SQL Server數據庫中, 速度較快, 實例驗證時平均20秒即可導入1萬條記錄, 但有時會出現Excel進程無法關閉的現象, 原因可能是Excel取值過程造成的, 以至于隨后的數據不能正常導入, 整個導入過程存在風險不可控。

方法二:

此方法同樣是將文件夾下的Excel文件以記錄為單位, 逐個導入到SQL Server數據庫中, Excel中每條記錄都會執行一次數據插入操作, 時間效率略低于方法一, 大約需要25秒可導入1萬條記錄, 但此方法不會出現Excel進程關閉問題, 并能準確記錄第N條記錄的導入情況, 直觀地再現了操作數據庫的過程, 方便控制, 易于理解。

4 結語

對大數據和大數據文件進行了探討, 介紹了大數據文件導入數據庫應遵循的原則和方法, 最后在VB6環境下實驗, Excel大數據文件批量導入SQL Server數據庫系統的過程, 實驗證明, 上述程序均能將本地Excel大數據導入本地也可導入異地SQL Server數據庫, 編程愛好者也可根據自身需要對程序進行適當變異, 以滿足不同的需求。

參考文獻

[1]李愛華.VB實現Excel數據導入SQL Server方法解析[J].電腦編程技巧與維護, 2011, 02:41-43.

[2]鐘軍, 等.Visual Basic數據庫高級實例導航.北京:科學出版社, 2004.

[3]【美】Microsoft公司.Microsoft Visual Basic6.0控件參考手冊.北京:北京希望電子出版社, 1999.

網頁數據庫數據導入論文范文第3篇

關鍵詞:Excel2010,數據導入,數據庫,設計

Excel2010數據導入數據庫的科學高效構建,是一個復雜的程度,數據導入數據庫的實現,能夠改變傳統的離散數據組合方式,實現離散數據的處理效率,在數據處理與分析的過程中扮演著關鍵性角色。Excel2010數據導入數據庫設計的實現能夠有效提升相關數據輸入的成功率,在集成開發的大環境下,Excel2010數據導入數據庫設計的實現,能夠促進表格的鏈接技術的快速發展,提升應用程序對Excel表格中的數據的解讀能力,促進中間件Dataset數據集科學定義工作的有序開展。因此對于Excel2010數據導入數據庫的科學高效構建就有著十分重大的現實意義。

1 Office模塊的科學導入

Excel2010作為office的重要組成部分,其數據處理功能的實現需要借助于office模塊這一平臺,因此Excel2010條件下的數據導入數據庫設計,就需要實現office的科學導入,將VS2010引入到office的模塊設計中,增強office模塊自身的靈活性與可操作性,提升軟件應用程序與office之間交互的流暢程度。

為此,就需要相關設計開發人員將Excel環境下的各類應用程度進行集合優化,將其與VS2010集成開發環境進行有機融合,以此來進行運行程序環境的有效構建,滿足數據導入數據庫對運行程序的客觀要求[1]。為了達到這一目標,需要進行以下具體操作,如下圖1所示。

首先,在創建的項目上右擊數遍,在相關菜單選項中尋找添加引用,點擊之后,根據相應對話框的提示進行操作。其次在NET標簽中根據自身數據處理的客觀要求,選擇相關的程序集合[2]。最后將其添加到最初創建的應用程序當中,實現office模塊在VS2010集成環境下的有效導入。

2 Excel2010數據導入數據庫設計應遵循的原則

2.1 Excel2010數據導入數據庫的設計必須要遵循科學性的原則

Excel2010數據導入數據庫設計目標的實現,要充分體現科學性的原則,只有從科學的角度進行Excel2010工作原理、Office模塊的特性、相關技術的成熟程度以及相關工作人員的職業素質與技能進行細致而全面的考量,才能夠最大限度的保證Excel2010數據導入數據庫的技術要求[3]。只有在科學精神、科學手段、科學理念的指導下,我們才能夠以現有的軟件設計技術條件為基礎,進行非Excel2010數據導入數據庫設計的科學高效進行。

2.2 Excel2010數據導入數據庫設計必須要遵循易操作的原則

由于Excel2010數據導入數據庫的工作環境較為簡單,計算機硬件條件與軟件運行程序十分有限,難以實現Excel2010數據導入數據庫科學設計以及相關設計技術與相關流程的細致處理與操作。為了適應這一現實狀況,Excel2010數據導入數據庫的設計,就要盡可能的增加Excel2010數據導入數據庫設計方案與技術的容錯率,減少外部環境對Excel2010數據導入數據庫設計效果的影響。同時由于計算機硬件構成與軟件系統的更新速度較快,因而對Excel2010數據導入數據庫設計提出了較高的要求,但是實際情況來看,從事Excel2010數據導入數據庫設計工作的相關人員,由于在種種原因的影響下,使得專業素質難以滿足Excel2010數據導入數據庫設計工作的客觀要求,絕大多數Excel2010數據導入數據庫設計工作又由他們承擔,所以Excel2010數據導入數據庫設計方案必須進行簡化處理,降低操作的難度,使得在較短時間內,進行有效操作,保證Excel2010數據導入數據庫設計工作行的速率與效果,使得Excel2010數據導入數據庫的構建能夠滿足經濟發展與社會生活的需要。

3 Excel2010數據導入數據庫設計實現的途徑與方法

Excel2010數據導入數據庫設計的實現是一個復雜的過程,需要相關設計人員立足于數據導入數據庫的客觀要求,在相關原則的指導下,從多個方面、多個角度、多個層面入手保證Excel2010數據導入數據庫設計的科學高效實現。

Excel2010數據導入數據庫設計過程中鏈接數據源的有效處理,所謂的數據源是指將不同位置上的各類數據庫、數據庫內的各類文件,通過特定的鏈接規范,在VS2010的開發環境下,為數據庫設計人員提供一個操作指令與接口,從而為數據庫設計人員的代碼構建與數據庫設計提供便利條件。這一過程包括兩大方面:Excel電子表格和SQL Server數據庫鏈接的設置[4]。Excel電子表格鏈接設置的實現需要將相關電子表格進行準確填寫,并將其導入到相關文件當中進行保存,同時為了提升Excel電子表格鏈接的通用性與便捷性,進行數據源的動態選擇,相關設計人員應以text Box文本框作為文件存儲平臺,將其作為代碼輸入與接收裝置,實現Excel電子表格鏈接的科學高效實現。SQL Server數據庫作為VS2010內置的數據庫,因為其數量較少,存儲空間有效,所以在一定程度上制約了SQL Server數據庫作用的實現[5]。而在VS2010的集成開發環境下,可以進行SQL Server數據庫之間的科學鏈接,為此就需要相關設計人員在VS2010當中建立一個SQL數據庫將其命名為abc.mdf,并在該數據庫中以二維數據表的形式進行文件的書寫與存儲。完成Excel電子表格和SQL Server數據庫鏈接的設置之后,需要在服務管理器的資源管理器中進行數據庫鏈接的添加,實現服務器節點的有效展開,并進行數據表格結構的梳理,并將梳理的結果進行存儲,在這一過程中,需要保持數據表格與原有Excel表格在形式結構上保持一致,以保證數據的準確錄入。Excel2010數據導入數據庫設計過程中數據庫中數據的科學保存,為了保證Excel2010數據導入數據庫的有序進行,就需要將中間文件中存儲的臨時數據進行永久性保存,就需要將Excel2010中的電子表格結構進行梳理,將臨時數據與電子表格結構結合起來,進行數據的永久性保存。

參考文獻

[1]王旭輝.Excel數據導入數據庫的設計實現[J].現代電子科技,2013(12):71-73.

[2]彭磊,李先國.大數據量Excel數據導入系統的設計與實現[J].現代電子科技,2014(14):57-59.

[3]曾秋麗,李娜.利用jxl將復雜excel報表導入數據庫的設計與實現[J].數字化用戶,2014,20(11):51-52.

[4]羅麗云,段艷萍,簡碧園.ASP.NET中導入Excel數據到數據庫的應用與實現[J].科技創新與應用,2015(29):89-89.

網頁數據庫數據導入論文范文第4篇

Excel數據導入數據庫通常有 兩種方法 , 一是讀取Exce文件, 直接將各單元格數據按順序插入到數據庫表相應的字段。二是先將Excel文件轉換成Data Table, 然后將Data Tabl記錄插入到數據庫表相應的字段。這兩種方法的共同點, 都必須人工先創建數據庫, 然后再根據Excel文件內容, 創建相應的數據庫表數據結構, 不同的Excel文件就需要人工創建不同的數據庫表。在實際項目開發中, 經常遇到將多個Excel文件數據導入數據庫的情況, 此時就要人工創建多個相應的數據庫表數據結構。這兩種方法的主要缺點是, 做項目時既費時又費力, 并且項目通用性差, 即: 一個Excel數據導入數據庫項目開發完成后, 它只能完成事先設定的Excel數據的導入, 而不能實現對任意Excel文件數據的導入。針對上述問題, 開發了Excel數據智能導入數據庫的項目例程 , 該例程能夠自動創建數據庫、根據Excel文件內容, 自動創建相應的數據庫表數據結構, 并將Excel數據智能導入SQL2005數據庫。

2 開發環境

C# 2008、SQL2005。Office2003需要安裝Office2003NET可編程支持的Excel組件。安裝完成后C:windowsassembly目錄下, 出現以下文件, 如圖1所示。

Microsoft.Office.Interop.Excel;

3 實現代碼

(1) 新建一個Windows窗體應用程序工程。

1) Form1 Text屬性設為 “根據Excel格式創建 數據庫及表, 并將數據導入數據庫表中”。

2) 在Form1窗體上分別放入控件menu Strip1、save File Dialog1、open File Dialog1、data Grid View1。

3) 在Form1中添加引用

using System.Data.Sql Client;

using MSExcel = Microsoft.Office.Interop.Excel;

4) 在解決方案資源管理器中添加引用

引用-添加引用--.NET-- Microsoft.Office.Interop.Excel

5) 在Form1中編寫下列代碼 :

( 2) 設置菜單 。選中menu Strip1, 設置一級 菜單“數 據庫”, 在“數據庫”下創建子菜單“創建數據庫”。 設置一級菜單“表”, 在“表”下創建子菜單“創建表 (根據Excel數據格式), 并將Excel數據導入數據庫表中”。設置一級菜單“顯示記錄”, 在“顯示記錄”下創建子菜單“顯示數據庫表中全部記錄”。

( 3) 設置data Grid View1為全屏顯 示。Anchor屬性設為“Top, Bottom, Left, Right”。

(4) 添加一個數據庫類Db SQL.cs

1) 添加引用

using System.Data;

using System.Data.Sql Client;

using System.Collections;

2) 連接數據庫字符串代碼

3) 主要函數功能介紹

(5) 添加一個電子表格類Excel Class.cs

1) 添加引用

using System.Windows.Forms;

using MSExcel = Microsoft.Office.Interop.Excel;

2) 主要函數功能

(6) 添加一個顯示類Data Grid View SQL.cs

1) 添加引用

using System.Windows.Forms;

using System.Data;

using System.IO;

using System.Collections;//Array List

using System.Data.Sql Client;

2) 編寫顯示數據庫表DBTables全部記錄函數

(7) 創建“按Excel格式創建表 , 并將數據導入數據庫表中”對話框Form2 (圖2)。

1) 編寫“打開數據庫文件”事件代碼

2) 編寫“打開Excel文件”事件代碼

3) 編寫“確定” 事件代碼

4) 編寫“放棄” 事件代碼

(8) 創建“顯示數據庫表 (記錄)”對話框Form3 (圖3)。

1) 編寫“打開數據庫文件” 事件代碼

2) 編寫“確定”事件代碼

3) 編寫“放棄” 事件代碼

(9) 編寫Form1代碼。

1) 主要函數功能

2) 菜單“創建數據庫” 事件代碼

3) 菜單“創建表 (根據Excel數據格式 ) , 并將Excel數據導入數據庫表中”事件代碼

4) 菜單“顯示數據庫表中全部記錄”事件代碼

4 測試

4.1 Excel 文件格式約定

Excel文件第1行,單元格的字符做為數據庫字段長度使用,必須為數字字符串, 數字的數值要大于實際字段長度,否則寫入數據庫會出現異常。此行需要人工插入并填入數字字符串。

Excel文件第2行 , 單元格的字符做為數據庫字段使用。因此, 單元格的字符不能為空、不能重復, 必須用英文字母或漢字開頭, 并且單元格的字符不要使用空格, +, - , ( ),=, *," 等字符 , 若出現上述字符本例程則“丟棄”。

本例程支持Excel文件最大列數 (字段數) 26, 行數 (記錄) 65535。若一行都為“空”字符, 數據導入結束。若一行的內容完全相同, 則不寫入數據庫。

4.2 Excel 原文件格式樣式

如圖4所示。

4.3 Excel 數 據智能導入 SQL2005 數據庫時文件格式樣式

如圖5所示, Execl文件數據 智能導入SQL2005數據庫需要人工在Execl文件中, 插入第1行, 并填入數字字符串。

4.4 Excel 數 據智能導入 SQL2005 數 據庫 , 創建數據庫

如圖6所示。

4.5 創建數據庫

數據庫名Excel To SQL, 按“保存”按鈕, 如圖7所示。

4.6 創建數據庫完畢, 提示保存在 c:Excel To SQL

如圖8所示。

4.7 小文檔 Excel 文件 (圖書銷售.xls) 數據導入數據庫

如圖9所示。

4.8 小文檔 Excel 數據導入數據庫成功

如圖10所示。

4.9 大文檔 Excel 文件 (漢字編碼.xls) 數據導入數據庫

如圖11所示。

4.10 大文檔 Excel 數據導入數據庫成功, 重復行數據不寫入數據庫

如圖12所示。

4.11 顯示數據庫記錄, 選擇數據庫表

如圖13所示。

4.12 顯示數據庫表: My DBTable_ 圖書銷售, 全部記錄

如圖14所示。

4.13 顯示數據庫表: My DBTable_ 漢字編碼, 全部記錄

52條重復行數據不寫入數據庫 , 如圖15所示。

5 結語

按照介紹的Excel數據智能導入SQL2005數據庫方法, 很容易實現Excel數據智能導入其他數據庫。Excel數據智能導入數據庫后, 對數據庫記錄進行插入、刪除、修改等操作與常規情 況對數據 庫的操作 相同。該 例程在C#2008、SQL2005Office2003環境測試通過。在實際構建信息量很大的數據庫時 極大提高了信息錄入的效率。

摘要:Excel數據導入數據庫的實現方法,很多資料上都有介紹,但是都存在需要另外人工創建數據庫、人工根據Excel數據格式創建數據庫表,開發完成的項目通用性差等缺點。介紹的C#語言開發Excel數據智能導入SQL2005數據庫項目,能夠實現自動創建數據庫、自動創建數據庫表數據結構并根據多個Excel文件內容,創建多個相應的數據庫表數據結構,將Excel數據智能導入SQL2005數據庫。

網頁數據庫數據導入論文范文第5篇

第二步:打開文件,導入導出

第三步:選擇導出文件

第四步:選擇excel

第五步:選擇聯系人

第六步:選擇確定,另存為某一地方

第七步:打開保存文件,在姓里面輸入名字,移動電話輸入電話號碼

第八步:保存為csv格式

第九步:打開outlook,導入名單

第十步:打開outlook,導入名單

第十一步:選擇逗號分隔值

第十二步:選擇文件位置,選聯系人

網頁數據庫數據導入論文范文第6篇

國內外學者對聚類算法的研究已經有多年的歷史, 聚類算法可分為采用劃分的方法、采用層次的方法、采用密度的方法和采用網格的方法。如DBSCAN[1], OPTICS[2]是采用密度的方法, STING[3]和Wave Cluster[4]是采用網格方法。李睿[5]提出了一種基于局部標簽樹匹配的改進網頁聚類算法, 利用標簽樹中模板節點和非模板節點的層次差異性, 根據節點對布局影響的大小賦予節點不同的匹配權值, 使用局部樹匹配完成對網頁結構相似性的有效計算。

常用的文本聚類算法是基于詞語的統計信息, 很難表述文檔的語義信息, 中文文檔中多義詞和同義詞的現象相當普遍, 這就很容易造成聚類結果不準確。該文提出了基于數據分布特征的網頁聚類算法。根據每一個數據點對整個集合空間的影響力, 計算數據之間的影響函數, 然后計算局部最大特征點, 最后劃分出類別。

第二部分是基于數據分布特征的網頁聚類算法, 第三部分是具體的實驗與結果分析。

1 基于數據分布特征的網頁聚類算法

空間中的每一個數據點, 對整個空間都有影響力, 根據這個原理, 該文定義數據之間的影響函數。勢函數可以用來表述出數據之間的關系, 數據分布特征可以采用勢函數的疊加來獲取。我們選擇如下勢函數:

其中, m為參數, 距離函數d (x, y) 可以有下面幾種形式:

從數學上, 可以將公式1, 2, 3統一起來, 得到表達式如下:

定義了勢函數以后, 我們就可以刻畫勢值分布, 并根據勢值的分布進行聚類。我們選取勢值的局部最大值點作為聚類中心, 因為這些局部極值體現了局部數據的整體特性。這樣就形成了很多的局部最大值點, 體現了數據勢值的概率分布, 劃分這些局部最大值點就可以完成對數據的聚類。

對于數據集D∈Rn, x∈D, 數據集在向量空間內某一點y所產生的勢如下:

某一點y的梯度為:

局部最大勢值點求法:沿著梯度方向, 給出一定的步長和誤差精度, 就可以完成局部最大特征點的求取。

由于兩個交疊的局部最大勢值點具有不同的勢密度分布, 所以它們的分界線應該是兩個局部最大勢值點之間的分割線。

我們選取兩個局部最大特征點的坐標, 在兩個坐標之間查找勢值最小值的位置, 從這個位置出發, 找出分割線, 然后根據分割線劃分兩個交疊的類。

2 實驗分析

為了搜集實驗語料, 該文從騰訊、人民網等網站上下載了56300個網頁, 根據網頁文字內容分為10類主題。該文采用準確率P、召回率R和F-Measure值對實驗結果進行評測。

從表1的實驗結果看出, 基于數據分布特征的聚類算法得到的聚類結果比k-means算法要好。

在上面的實驗中, 參數m是根據經驗來估算的, 該文利用56300篇網頁對參數m進行分析, 結果見表2。

從表2可以看出, 參數m對聚類效果有影響。當m=0.6時, 聚類結果在評測指標上取得了最優值。

3 結束語

本文提出了一種基于數據分布特征的網頁聚類算法。根據每一個數據點對整個集合空間的影響力, 計算數據之間的影響函數, 然后計算局部最大特征點, 最后劃分出類別。下一步我們會進一步分析和提高該聚類算法的準確度。

參考文獻

[1]Ester M, Kriegel H P, Sander J, et al.A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc.2nd Int.Conf.on Knowledge Discovery and Data Mining (KDD) [C].2000.Pages:495-501., Portland, OR, AAAI Press, 1996:226-231.

[2]Ankerst M, Breunig M M, H.-P.Kriegel, etc.OPTICS:Ordering Points to Identify the Clustering Structure., in Proc.ACM SIGMOD Int.Conf.on Management of Data (SIGMOD’99) [C].Philadelphia, PA, 1999:49-60.

[3]Wang W, Yang J, Muntz M.STING:A statistical information grid approach to spatial data mining., in Proc.1997 Int.Conf.on Very Large Data Bases (VLDB’97) [C], 1997:186-195.

[4]Sheikholeslami G., Chatterjee S.and Zhang A., WaveCluster:A wavelet-based clustering approach for multidimensional data in very large databases.The VLDB Journal[J].8 (4) , February, 2000, pp.289-304.

上一篇:辦公自動化計算機技術論文范文下一篇:房地產投資經濟環境論文范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火