Hadoop平臺數據挖掘論文

2022-04-12

評職稱或畢業的時候，都會遇到論文的煩惱，為此精選了《Hadoop平臺數據挖掘論文(精選3篇)》的文章，希望能夠很好的幫助到大家，謝謝大家對小編的支持和鼓勵?！菊吭朴嬎慵夹g的出現為數據挖掘技術的發展帶來了新的機遇。云計算技術通過使存儲和計算能力均勻的分布到集群中的多個存儲和計算節點上，從而實現了對超大數據集的巨大的存儲和計算能力。HADOOP是一個用于構建云平臺的Apache開源項目。使用HADOOP框架有利于我們方便、快速的實現計算機集群。

Hadoop平臺數據挖掘論文篇1：

基于改進Hadoop云平臺的海量文本數據挖掘

摘要針對常用的文本數據挖掘系統在處理海量文本數據時時間效率較低的問題，論文提出了一種基于改進Hadoop云平臺的海量文本數據挖掘方法.該方法首先將傳統Hadoop云平臺進行改進以適應海量文本數據挖掘的需要，然后將海量文本數據集和挖掘任務分解到該改進平臺上的多臺計算機上并行處理，從而實現了一個基于改進Hadoop云平臺的海量文本數據挖掘平臺，并通過對10 000篇新聞材料組成的實驗數據集進行挖掘驗證了該平臺的有效性和高效性.

關鍵詞文本挖掘；Hadoop；云計算；文本數據

Key words text mining； Hadoop； cloud computing； text data；

隨著計算機技術與信息技術的飛速發展，國民經濟各行業所獲得的數據呈爆炸式增長，TB級甚至PB級海量數據無處不在[1].由于數據主要來自于互聯網，例如電子商務、微博等，這些數據主要以文本形式存儲，十分繁雜但又極具價值.它們產生的速度遠遠超過了人們收集信息、利用信息的速度，使得人們無法快速有效地查找到自己真正感興趣的信息，從而造成了時間、資金和精力的巨大浪費，導致“數據資源”變成“數據災難”[2].因此，如何有效地從這類海量數據中獲取信息或規律已成為當今信息科學技術領域所面臨的基本科學問題之一.

然而，在傳統計算框架下，海量文本數據的處理一般需要借助高性能機或者是更大規模的計算設備來完成[3].這雖然能夠在一定程度上解決海量數據的處理問題，但是其具有成本昂貴、隨著時間推移容錯性能差、可擴展性差等缺點，從而導致其很難普及[4].

Hadoop云平臺作為一種專門處理海量數據的新式計算模型于2005年被提出，2011年1.0.0版本釋出，標志著Hadoop已經初具生產規模，它將現代計算機的高性能與人的高智能相結合，是當今處理海量數據最有效、最核心的手段與途徑[5].論文將傳統Hadoop云平臺進行改進以適應海量文本數據挖掘的需要，然后將海量文本數據集和挖掘任務分解到該改進平臺上的多臺計算機上并行處理，從而實現了一個基于改進Hadoop云平臺的海量文本數據挖掘平臺，并通過對10 000篇新聞材料組成的實驗數據集進行挖掘驗驗證了平臺的有效性和高效性.

1 Hadoop云平臺簡介

Hadoop云平臺[6]是由Apache基金會開發的一個能夠對大量數據進行分布式處理的軟件框架，是一個能夠讓用戶輕松架構和使用的分布式計算平臺.通過該框架，用戶可以在不了解分布式底層細節的情況下，開發分布式程序，充分利用集群的威力高速運算和存儲.Hadoop框架由HDFS[7]和MapReduce[8]組成，其中，Hadoop分布式文件系統（HDFS）[3]在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發的，目前已經是Apache Hadoop Core項目的一部分.HDFS被設計成適合運行在通用硬件（commodity hardware）上的分布式文件系統.它和現有的分布式文件系統有很多共同點.但同時，它和其他的分布式文件系統的區別也很明顯[9].HDFS是一個高度容錯性的系統，適合部署在廉價的機器上；能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用[10].MapReduce[11]是谷歌開發的一種分布式程序設計框架，基于它編寫的應用程序能夠運行在由上千臺計算機組成的大型集群上，并且以一種可靠容錯的方式對海量數據進行并行處理.Hadoop能夠實現對多種類型文件的處理，比如文本、圖像、視頻等.我們可以根據自己的需要編寫特定的應用程序來完成任務目標 [12].

2 傳統基于Hadoop云平臺的文本數據挖掘

在傳統基于Hadoop云平臺的文本挖掘系統中，節點主要分為主節點（Master）和從節點（Slave）這兩類.整個系統僅有一個Master節點，由NameNode、文本數據集、JobTracker、文本挖掘算法庫組成.在系統中可有多個Slave節點，它由DataNode、TaskTracker組成，主要負責系統的存儲和計算任務.系統的整體架構如圖1所示.

NameNode：整個集群中只有一個，是整個系統的大腦，負責管理HDFS的目錄樹和相關的文件元數據信息以及監控各個DataNode的健康狀態.NameNode主要職責是跟蹤文件如何被分割成文件塊、文件塊又被哪些節點存儲，以及分布式文件系統的整體運行狀態是否正常等，如果NameNode節點停止運行的話將會導致數據節點無法通信，客戶端無法讀取和寫入數據到HDFS，實際上這也將導致整個系統停止工作.通常情況下每個Slave節點安裝一個DataNode，數據以若干個固定大小的block塊的形式在其上存儲，定期向NameNode匯報其上存儲的數據信息.

文本挖掘算法庫主要用于存儲對數據進行挖掘所需的算法，這些算法都被存于Master節點中.通常算法都是串行的，為使它們能夠在Hadoop云平臺執行，在使用之前需要對它們按照Hadoop云平臺的特點進行改造.在挖掘過程中，JobTracker會根據實際所需自動將其分發至各Slave節點，供TaskTracker使用.

在該系統中，Master周期性地ping每個Slave，如果在一個時間段內Slave沒有返回信息，Master就會標注該Slave節點失效，此節點上所有任務將被重新初始空閑狀態，并被分配給其他Slave執行.

從功能上劃分，NameNode、DataNode、文本數據集形成了系統的存儲部件，JobTracker、文本挖掘算法庫、TaskTracker形成了系統的計算部件.

3 Hadoop云平臺的改進

在海量文本數據挖掘中，網絡通信性能制約了系統性能的提高，網絡寬帶資源比較重要.在“計算遷移總是比數據遷移代價低”[12]的思想指導下，本文將計算節點和存儲節點配置在一起，在任務調度時盡量在保存相應輸入文件塊的設備上分配并執行任務，這種方法使得大部分并行任務都在本地機器上讀取輸入數據，有效的減少網絡數據流量，從而減少了節點間的通訊消耗.

在Hadoop云平臺工作過程中，節點間的數據傳輸消耗大量時間，如果能減少數據傳輸次數，就有可能提高系統整體時間性能.在傳統的Hadoop云平臺中，需要將具有相同鍵值Key/Value對的中間數據傳送到同一個Reduce節點歸約.如果相同類型的鍵值Key/Value對較多，即這類中間結果較多的話，那么節點間就必定存在大量中間結果的傳送，這勢必消耗大量寬帶資源，平臺的時間性能也就交差.為此，我們對傳統Hadoop云平臺作如下修改：在Map階段增加一個CombineProcess模塊，對同一Map階段中具有相同鍵值Key/Value對的中間結果做一個初步合并，并過濾掉一些無用的中間結果.改進后的Hadoop云平臺海量文本數據挖掘系統工作流程如圖2所示.

由于CombineProcess模塊位于Map階段，只在本地機上執行，并不存在節點間的數據傳輸，因此，該模塊耗時較少.而在文本挖掘中，相同鍵值Key/Value對的中間結果以及無用的中間結果較多，經過CombineProcess模塊的初步合并和過濾，能夠減少很多中間結果，相應地也就較多地減少了節點間的數據傳輸，此較少的消耗時間要比CombineProcess模塊在本地機上執行初步合并和過濾所消耗的時間要多得多，因此，改進后的Hadoop云平臺系統在整體上能夠減少耗時，執行效率能夠有所提升.

4 仿真實驗

在實驗中，我們的Hadoop云平臺由9臺計算機組成（其中1臺為Master，另8臺為Slave），操作系統均為CentOS-6.4 64 bit，配置均為八核IntelCorei 7處理器，4 GB內存，1 TB硬盤，Hadoop版本為1.1.2，Java版本為1.7.25，每個節點通過100Mb/s的局域網連接.實驗數據集，從新華網（http：//forum.xinhuanet.com/）下載2010—2013年間新聞材料，共10 000篇，包括財經、法律、娛樂、體育、計算機等10大類.這些實驗數據集經預處理后（忽略所有的報頭）進行挖掘實驗，采用改進前后的Hadoop云平臺海量文本挖掘系統，主要進行了以下3組不同的對比實驗（注：所有時間結果都四舍五入取整）：

實驗1 處理10 000篇新聞材料，文件復制數分別設為1和3，BlockSize設為10 M，系統執行時間如表1所示.

從表1可以看出：文件復制數的增多并沒有提高整體挖掘的時間性能，同時，文件復制數增多，系統準備時間在一定程度上會增多.

實驗2 文件復制數設為1， Slave分別為2，4，6，8臺，BlockSize設為10 M，處理10 000篇新聞材料，系統執行時間如表2所示.

從表3可以看出：BlockSize分塊大小對系統有很大影響.如果BlockBlockSize較小，那么Job數目增多，系統調度頻繁，節點間通信開銷大，性能降低；如果BlockBlockSize較大，雖節點間通信開銷小，但是并行程度較低，節點內部計算時間較大.

從表1、表2和表3可以看出：在同樣條件下，改進后的Hadoop云平臺海量文本數據挖掘系統在時間消耗上都優于改進前的平臺系統.這是因為改進后的平臺系統能夠借助CombineProcess模塊來過濾掉一些無用的數據，且把計算節點和存儲節點盡可能配置在一起，從而極大地減少了節點間的網絡通訊，進而提高了系統的整體時間性能.

5 結束語

針對傳統文本挖掘系統作用于海量文本數據時時間性能較低的問題，論文把Hadoop云平臺引入其中并加以改進，在此基礎上提出了一個基于改進Hadoop云平臺的海量文本數據挖掘系統.以人民網上下載的10 000篇新聞材料作為實驗數據集，分別進行了不同的3組對比實驗，結果都顯示改進后的平臺系統在時間性能上有一定程度上的提高，這也表明了改進后的平臺系統是有一定實用價值的.論文下一步的工作將是對平臺系統改進前后的挖掘精度，以及應用于其他類型的海量數據，例如對海量植物葉片圖像數據所涉及的關鍵技術做進一步研究.

參考文獻：

[1] 中國互聯網絡信息中心（CNNIC）.第33次中國互聯網絡發展狀況統計報告[R].北京：中國互聯網絡信息中心， 2014.

[2] 王珊，王會舉，覃雄派，等. 架構大數據：挑戰、現狀與展望[J].計算機學報， 2011，34（10）：1741-1752.

[3] SEGALL R S， ZHANG Q Y. Web mining technologies for customer and marketing surveys [J].Int J Syst Cyber， 2009，38（6）：925-949.

[4] THEUER H， LASS S. Engineering data management systeme/product data management systeme [J]. Productivity Manag， 2010，15（4）：34-38.

[5] MARSTON S， LI Z， BANDYOPADHYAY S， et al. Cloud computing—the business perspective[J].Decision Supp Syst， 2011，51（1）：176-189.

[6] ARMBRUST M， FOX A， GRIFFITH R， et al. A view of cloud computing[J]. Commun ACM， 2010，53（4）：50-58.

[7] DEAN J， GHEMAWAT S. MapReduce： a flexible data processing tool[J]. Commun ACM， 2010，53（1）：72-77.

[8] AFRATI F N， ULLMAN J D. Optimizing multiway joins in a map-reduce environment[J]. IEEE Trans Knowled Data Engi， 2011，23（9）：1282-1298.

[9] 覃雄派，王會舉，杜小勇，等.大數據分析——RDBMS 與MapReduce 的競爭與共生[J].軟件學報， 2012，23（1）：32-45.

[10] 李建江，崔健，王聃. MapReduce并行編程模型研究綜述[J].電子學報， 2011，39（11）：2635-2642.

[11] SRINIVASAN A， FARUQUIE T A， JOSHI S. Data and task parallelism in ILP using MapReduce [J]. Mach Lear， 2012，86（1）：141-168.

[12] 羅軍舟，金嘉暉，宋愛波，等. 云計算：體系架構與關鍵技術[J].通信學報， 2011，32（7）：13-21.

（編輯 HWJ）

作者：陳炎龍段紅玉

Hadoop平臺數據挖掘論文篇2：

基于HADOOP的數據挖掘平臺分析與設計

【摘要】云計算技術的出現為數據挖掘技術的發展帶來了新的機遇。云計算技術通過使存儲和計算能力均勻的分布到集群中的多個存儲和計算節點上，從而實現了對超大數據集的巨大的存儲和計算能力。HADOOP是一個用于構建云平臺的Apache開源項目。使用HADOOP框架有利于我們方便、快速的實現計算機集群。在HADOOP平臺上，采用了HDFS（分布式文件系統）來實現超大文件的存儲和容錯，而使用了MapReduce的編程模式來進行計算。

【關鍵詞】HADOOP；數據挖掘；平臺；分析；設計

一、數據挖掘技術概述

作為一門快速發展的技術，數據挖掘引起了信息產業界和社會的廣泛關注。數據挖掘技術跨越多個學科，無論是數據庫技術、機器學習、統計學、模式識別，還是神經網絡，還是人工智能，數據挖掘都能從中吸取營養，不斷發展。如今，隨著云計算的出現和發展，數據挖掘技術迎來了新的機遇和挑戰。

1.數據挖掘發展歷程與分類

數據挖掘由單個算法，單個系統到并行數據挖掘與服務的模式，經歷了數據挖掘軟件開始和數據庫結合、多種數據類型融合、分布式挖掘等多個過程。到今天，數據挖掘軟件發展的歷程，可以說是進入基于云計算的數據挖掘。

由于數據挖掘是一個交叉學科領域，是在包括機器學習，模式識別等多個學科的基礎上發展而來。依賴于我們所用的數據挖掘方法，我們又可以使用其他學科的多種技術，如神經網絡、模糊或粗糙集合論、知識表示等。所以，對數據挖掘的研究，我們會期望出現大量的各種類型的數據挖掘系統。這樣，我們就需要對數據挖掘系統給出一個很清楚的分類。有了這種認識，我們才可以幫助用戶根據其需求，確定最適合其需要的數據挖掘系統。

因此，數據挖掘的分類標準也必定會出現多樣化。我們可以根據挖掘的數據庫類型分類，或是技術類型分類，也可以根據運用的場景分類。但是大部分情況下，我們會根據挖掘產生的知識類型進行分類，也即是根據數據挖掘的功能進行分類。

2.數據挖掘流程

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程，表現形式為規則、概念、規律及模式等。數據挖掘主要由以下步驟組成：

①數據預處理數據

預處理階段主要為數據挖掘準備好數據。一般來講主要包括數據清理和數據集成。對于大量的數據，難免的存在著噪聲或不一致的數據。對于存在這些問題的數據源，我們必須進行數據預處理?，F在，數據挖掘面對的挖掘對象的種類越來越多。半結構數據、web數據、來自云的數據等各種數據形式層出不窮。如何將數據挖掘技術使用到這些不同的數據結構中，數據預處理是非常重要的步驟和技術。它對于挖掘結果有著重要的影響。

②數據挖掘

一旦對數據的預處理工作完成，數據挖掘工作就開始了。這是整個數據挖掘過程的基本步驟，也就是使用智能的方法來提取數據模式的過程。數據挖掘階段，根據挖掘任務的不同，我們會使用不同的技術和處理方法。常見的數據挖掘任務包括特征化、區分、分類、關聯分析、聚類等。這是數據挖掘過程中最重要的步驟。

③模式評估

當數據挖掘一旦完成，就會生成挖掘的結果——模式。然而，這些模式不是我們都感興趣的。實際上，對于給定的用戶，在可能產生的模式中，只存在一小部分是他感興趣的。如何表示我們對于模式的期望和興趣，現在存在一些模式興趣度的客觀度量，包括規則的支持度，置信度等。在模式評估階段，我們去發現只對我們來說是感興趣的各種模式

④知識表示

對于用戶感興趣的模式，我們可以使用可視化和知識表示技術，以更直觀的，更易于理解的方式向用戶展現有意義的模式。這是與用戶的直接交互，更友好的表示方法可以使用戶更好的得到有意義的模式的全部內涵。這是數據挖掘過程中很重要的步驟，也是人們研究的一個重要方面。

二、典型數據挖掘系統構成

通過對數據挖掘過程有了一定的認識，一個典型的數據挖掘系統主要由下面的部分構成：

1.數據源：這可以是一個或一組數據庫、數據倉庫、展開的表、或其它類型的信息庫，提供存儲的數據。

2.數據源服務器：根據用戶的數據挖掘請求，數據源服務器負責提取相關數據。

3.預處理模塊：該模塊執行數據清理、數據集成等操作，為數據挖掘過程準備結構良好的數據。

4.知識庫：這是領域知識，用于指導搜索，或評估結果模式的興趣度。這種知識可能包括概念分層，用于將屬性或屬性值組織成不同的抽象層。用戶確信方面的知識也可以包含在內?？梢允褂眠@種知識，根據非期望性評估模式的興趣度。領域知識的其它例子有興趣度限制或閾值和元數據（例如，描述來自多個異種數據源的數據）。

5.數據挖掘引擎：這是數據挖掘系統基本的部分，由一組功能模塊組成，用于特征、關聯、分類、聚類分析、演變和偏差分析。

6.模式評估模塊：該部分使用興趣度度量，并與挖掘模塊交互，以便將搜索聚焦在有趣的模式上，使用興趣度閾值過濾發現的模式。模式評估模塊可以與挖掘模塊集成在一起。

7.圖形用戶界面：該模塊在用戶和挖掘系統之間通訊，允許用戶與系統交互，指定數據挖掘查詢或任務，提供信息、幫助搜索聚焦，根據數據挖掘的中間結果進行探索式數據挖掘。此外，該成分還允許用戶瀏覽數據庫和數據倉庫模式或數據結構，評估挖掘的模式，以不同的形式對模式可視化。

在這個數據挖掘的基本系統中，模式評估模塊可以直接的嵌入到數據挖掘引擎中，以便指導挖掘引擎只產生用戶感興趣的模式。同時，預處理和用戶圖形界面是很重要的功能模塊，也是數據挖掘技術關注的新領域之一。

三、基于HADOOP的數據挖掘系統設計

通過對典型的數據挖掘系統的分析和研究，我們可以利用HADOOP平臺集群巨大的存儲和計算能力，組建基于HADOOP的數據挖掘系統。

1.基本設計思想

在經典的數據挖掘系統中，有的模塊不需要很大的計算量，而有的模塊需要非常大的計算量。充分利用HADOOP的集群特征，將數據挖掘系統中需要巨大計算能力的各個模塊的計算和存儲要求擴展到HADOOP集群中的各個節點上，利用集群的并行計算和存儲能力來進行相關數據挖掘工作。我們可以采用分層的設計思想。在底層，使用HADOOP來存儲、分析和處理巨大的數據量，而在高層通過接口直接透明的調用底層的計算和存儲能力。其流程如下：

①存儲

在整個系統中，我們可以使用HDFS來存儲文件和數據。HDFS具有很高的數據吞吐量，并且很好的實現了容錯機制。HDFS提供了多種訪問接口，包括API以及各種操作命令。使用HDFS，我們可以為原始的大數據集提供存儲空間，對臨時文件進行存儲，為數據預處理、數據挖掘過程提供輸入數據，同時輸出數據我們也保存在HDFS中。

②計算

在系統中，我們可以使用MapReduce將數據挖掘系統中具有大計算量特征的各個子模塊的計算任務發布到集群中的各個節點以實現并行計算。MapReduce具有很好的伸縮性和擴展性，它屏蔽掉底層，通過提供編程接口使我們可以快速的實現各種算法的并行方式。實現過程中我們都需要緊緊結合HDFS。

2.系統結構模型

如圖2所示，結合以上的基本設計思想以及典型的數據挖掘系統模型，采用分層的思想，自頂向下每層都透明的調用下層接口，最頂層為交互層，用于用戶和系統之間的交互。最底層為分布式計算層，使用HADOOP來實現文件分布式存儲和并行計算功能。使用分層，各層之間變得獨立，易于系統的擴展。下面詳細介紹我們得到的基于HADOOP的數據挖掘系統。

①交互層

這一層主要提供系統和用戶之間的接口。通過提供具有良好表現形式的圖形界面，使得用戶可以登陸系統定制各種細粒度的業務，查看或者保存各種輸出結果。

②業務應用層

這一層上提供了各種業務邏輯并實現了對各種業務流程的控制和調度。用戶提交的業務在這一層被處理，控制和調度。如：用戶在交互層提交的對特定數據完成分類挖掘的業務在在一層被處理。業務應用層通過調用數據挖掘算法層的多個模塊來完成交互層提交的業務，并返回結果到交互層。業務應用層還控制和調度著數據挖掘平臺的各個模塊的執行。

③數據挖掘平臺層

數據挖掘平臺層為業務應用層提供數據挖掘階段業務流需要的各個模塊，并且具有較細的粒度。如數據預處理，模式評估，數據挖掘，結果展示等功能組件。這一層是整個系統的核心，在這一層，主要的任務在于實現各種任務過程中算法的并行化，并將任務提交到HADOOP分布計算層進行運算。并將結果返回給業務應用層。

④分布式計算平臺層

這一層我們使用HADOOP框架來實現集群存儲、計算。HADOOP提供了分布式文件系統和并行的運行模式，同時實現了對分布式系統的管理。我們需要在此之上實現任務提交的server。

3.功能模塊

在這個系統中，每一層都包含了各自的功能模塊，以完成各層的任務。下面分別介紹各層具有的模塊以及相應的功能。

①交互層具有的模塊包括：

用戶管理模塊：實現用戶身份的識別以及相應權限的設置，同時也包括對用戶登陸或者注銷等常用的管理。

業務模塊：實現了細粒度的用戶業務需求的提交。用戶提交的各種業務通過業務模塊得到完成。

展示模塊：實現了用戶對業務結果的查看，分析和保存等功能。用來將系統的返回結果交付給用戶。

②業務應用層具有的模塊包括：

業務響應模塊：相應上層的業務模塊，對完成業務所需的子業務進行調用、管理，并通過調用底層模塊完成業務。

工作流模塊：對業務狀態進行監控、管理?？蓪⒕唧w的信息參數返回給本層的業務響應模塊。

③數據挖掘平臺包括的平臺：

數據加載模塊：將挖掘所需的數據進行注冊并放入系統的HDFS文件系統。

結果存儲模塊：存放挖掘現在產生或者歷史產生的各種模式。也可以叫做知識庫。

模式評估模塊：對產生的模式進行評估。此模塊也可以被并行數據挖掘模塊調用。

并行ETL模塊：對數據進行預處理。輸入的數據來自于HDFS文件中，并將處理結果也放入HDFS中，為挖掘過程進行數據清理，提取，轉換和加載。

④分布式計算層：

HADOOP框架自身提供了HDFS，MapReduce運行模式、運算環境以及自動管理。

四、小結

本文介紹了數據挖掘流程并在此基礎上設計了基于HADOOP的數據挖掘系統的基本架構。先對典型的數據挖掘系統做了分析和介紹，隨后詳細分析了基于HADOOP數據挖掘系統的需求，最后給出了系統的模型并簡要介紹了各個功能模塊。

參考文獻

[1]韓家煒，坎伯.數據挖掘概念與技術[M].北京：機械工業出版社，2008.

[2]朱珠.基于Hadoop的海量數據處理模型研究和應用[D].北京：北京郵電大學，2008.

[3]魏紅寧.基于SPRINT方法的并行決策樹分類研究[J].成都：西南交通大學，2005，25（1）：40-41.

[4]于蕾，劉大有，高瀅，田野.改進SPRINT算法及其在分布式環境下的研究[J].吉林大學學報，2008，46（6）：1120-1123.

作者簡介：羅剛（1981—），男，湖北武漢人，碩士，現供職于空軍預警學院監控系統工程研究所，研究方向：計算機應用。

作者：羅剛

Hadoop平臺數據挖掘論文篇3：

教育大數據在地方高等院校教育教學中的應用研究

摘要：綜合應用教育學、計算機科學、統計學、信息學等多學科理論可以實現對高校教育大數據的深層次挖掘和應用。采用Hadoop大數據挖掘云服務，構建了高校教育大數據挖掘系統，應用數據挖掘技術和統計方法處理曲靖師范學院本科教學評估期間收集的海量數據，可以實現對大學更加精準高效的管理以及智慧教與學，提高教育教學質量。

關鍵詞：教育大數據;數據挖掘;云服務;地方高等院校;Hadoop

大數據時代的教育數據與傳統教育數據相比，具備實時性高、顆粒度細、真實性和決策性強等特點。教育大數據產生在教與學的各個環節[1]，包括了各種類型的結構化、半結構化和非結構化的具有大數據特征的數據集，如教學數據、管理數據和科研數據，通過數據挖掘和分析、云計算等信息技術展現教育大數據的價值，各高等院校需要利用有效的信息技術來處理海量數據，挖掘出對高校教育教學管理決策有價值的信息[2]。教育數據挖掘主要采用了數據挖掘、數學統計和機器學習等技術對海量教育數據進行處理和分析并建立科學的數據模型[3]，從中發現學習者學習結果與學習內容、學習資源和教學行為等一系列變量之間的相關關系，挖掘學生的學習習慣、學習興趣和學習偏好。

我國大數據在高等教育領域應用的原理性研究較少，有些支持理論尚處于初生階段缺乏相關的資料支持。隨著教育機構的信息化系統中積累的數據量日益增多，教育行業的管理人員在選擇資源時無法得到有效、優質的信息，導致部分有效的信息得不到發掘利用，出現“信息孤島”的現象[4]。數據挖掘技術可以從教育信息海量數據中發現有用的信息，讓教育系統中的各個參與者受益，為解決教育領域中存在的半結構化以及非結構化的決策問題提供依據。

1教育大數據關鍵技術

1.1交叉學科

利用教育大數據實現對高校教育大數據的深層次挖掘和應用，需要綜合應用教育學、計算機科學、統計學、信息學等多學科理論。近幾年來，教育領域和信息領域發生了歷史性的變革，各種在線學習平臺、智能手機應用和社交網絡為研究者提供了大量的應用和海量數據，但是這些數據還沒有被許多地方高校足夠重視與合理運用，利用許多新型的信息技術，如云計算技術、物聯網、移動計算和大數據技術，為分析和挖掘教育大數據提供了技術支持，可以將這些閑置數據變廢為寶，實現數據技術的有效處理，挖掘出蘊含的隱藏價值。

云計算服務解決了高校信息化建設中的信息孤島現象[5-6]，可以集中整合分散的教育資源，使教師和學生能夠共享存儲在云服務端的教育資源，并且與各類終端設備無縫連接，將云服務端的各種分散的關系化、結構化和非結構化數據利用數據挖掘技術、數據分析和數學統計等方法進行分析和挖掘[7-8]，通過數據挖掘技術得到的信息，可以準確分析評價課堂教學的質量。

1.2數據來源

地方高校目前普遍存在教育經費使用效率不高，教育投入產出比低;在教學組織形式方面，沿襲工業化時代的標準化教學內容、教學方法、考試制度、學科設置及人才培養模式，忽視學生的個性特征和認知發展等問題。曲靖師范學院剛完成普通高等學校本科教學工作審核評估，各個學院以及教輔部門收集整理了各個方面的資料，如教學設施、課程資源、社會資源、教學改革、課堂教學、實踐教學、第二課堂、招生及生源情況、學生指導與服務、學風與學習效果、就業與發展、教學質量保障體系、質量監控、質量信息與利用和質量改進等，涵蓋了學校教學與服務的方方面面，針對這些海量數據，如何為我校師生做到精準的教與學以及質量評價是一個難題。本研究主要以曲靖師范學院本科教學評估期間收集得到的最新教學狀態數據、學生網上學習的日志數據、用戶產生的UGC數據，比如微信、微博、論壇等數據為主，另外學校已開設了公共關系禮儀實務等10門爾雅通識課、唐詩宋詞人文解讀等9門好大學在線等多達幾十門MOOC課程，這些教學的過程數據可以實現全程采集，利用這些數據來為我校師生做精準化分析服務。

其中，基礎數據包括學生基本信息、招生及生源情況;管理數據包括學風與學習效果、教學質量保障體系、質量監控、教學評價;教學數據包括教學設施、課堂教學、教學改革、課程資源、MOOC課程和網絡課程教學平臺;科研數據包括教師各項科研成果、第二課堂、實踐教學、大學生創新創業項目;服務數據包括學生指導與服務、圖書檔案服務、學生網上學習日志數據;輿情數據包括UGC數據，如微信、微博、論壇等數據。

2教育大數據挖掘應用實現

2.1教育大數據分析系統框架

教育大數據分析系統采用Hadoop大數據挖掘云服務，它是一個開放的主要面向互聯網海量非結構化數據的分析和挖掘平臺，也支持結構化和半結構化數據，集成了多種基于Hadoop的并行數據預處理和挖掘算法，如K-means算法，系統框架如圖所示：

2.2數據挖掘與數學分析

數據挖掘是從大量的、有噪聲的、不完備的、隨機的數據中，發現隱含在其中的、人們事先不知道的、但是是潛在有用的信息和知識的過程。原數據通常是大量的、真實有效的、含噪聲的;數據挖掘的主要特點是對數據庫中的大量數據進行提取、轉換、分析以及其它模型化處理，挖掘出用戶感興趣的以及有助于管理者決策的重要信息。本文以曲靖師范學院的高校辦學狀態等數據為原始數據源，采用數據挖掘技術中的統計方法、機器學習方法和仿生物法建立模型，獲取教育大數據中隱藏的潛在信息。統計方法用到了回歸分析、聚類分析、主成分分析和關聯規則挖掘，機器學習方法主要用到支持向量機等相關算法，仿生物法主要用到神經網絡，使用SPSS Clementine數據挖掘軟件對學生特征行為分析模塊、學生就業因素分析模塊、學習結果預測模塊、教學質量監控評測、高校管理發展影響因素分析模塊等進行模型構建，進行實例仿真，相關的教育數據挖掘研究結果如下：

3 結論

采集高校和各學院的辦學狀態數據，通過數據挖掘技術，可以消除信息孤島，實現橫向關聯比較，縱向歷史分析，提供精準服務，支持科學決策。通過數據挖掘技術得到的信息，可以準確分析評價課堂教學的質量，實現對大學更加精準高效的管理，使得教和學更加智慧，具體來說，對本校各學院學生學習過程進行跟蹤，實現興趣、個性、情感等方面的動態分析與挖掘，兩者結合起來，建立基于用戶興趣和個性的資源推薦，最后實現個性化精準過濾;同時對教師的教學質量和效果可以進行綜合、動態和客觀的評價。通過數據挖掘、分析、可視化等技術展現教育大數據的價值，推動教育發展創新，提高教育教學質量。

參考文獻：

[1]周慶，牟超，楊丹.教育數據挖掘研究進展綜述[J]. 軟件學報， 2015，26（11）：3026-3042.

[2]張燕南. 大數據的教育領域應用之研究——基于美國的應用實踐[D]，華東師范大學， 2016.

[3]馬秀麟，衷克定，劉立超. 從大數據挖掘的視角分析學生評教的有效性[J].中國電化教育， 2014（333）：78-84.

[4]彭濤，丁凌云.基于教育數據挖掘學生表現預測模型構建研究[J].黑龍江高教研究， 2015（11）：55-58.

[5]崔杰，李陶深，蘭紅星.基于Hadoop的海量數據存儲平臺設計與開發[J].計算機研究與發展， 2012（49）：12-18.

[6]何清，敖翔，莊福振，羅平.一種基于Hadoop的大數據挖掘云服務及應用[J].信息通信技術， 2015（6）：42-49.

[7] Chen X， Vorvoreanu M， Madhavan KPC. Mining social media data for understanding students’ learning experiences[C]. IEEE Trans. on Learning Technologies， 2014， 7（3）：246?259.

[8] Chang MM， Lin MC. The effect of reflective learning e-journals on reading comprehension and communication in language learning. Computers & Education， 2014（71）：124?132.

【通聯編輯：王力】

作者：董婧

本文來自 99學術網(www.gaojutz.com)，轉載請保留網址和出處

>> 查看更多相關文檔

上一篇：NSFC資助下技術經濟論文下一篇：PLC技術應用于機械工程論文

精品范文

1hadoop畢業論文題目范文

Hadoop平臺數據挖掘論文

Hadoop平臺數據挖掘論文 篇1：

Hadoop平臺數據挖掘論文 篇2：

Hadoop平臺數據挖掘論文 篇3：

精品范文

全站熱搜

Hadoop平臺數據挖掘論文篇1：

Hadoop平臺數據挖掘論文篇2：

Hadoop平臺數據挖掘論文篇3：