<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據挖掘技術論文范文

2023-09-09

數據挖掘技術論文范文第1篇

摘要目的：基于數據挖掘技術分析全國中醫婦科名家診治不孕癥的共性用藥規律。方法：采用Excel電子軟件將《婦科名家診治不孕癥臨證經驗》一書中所收錄的95位婦科名家治療不孕癥的方劑錄入數據庫，借助SPSS 25.0、SPSS Modeler 18.0統計軟件進行頻數分析、因子分析、聚類分析、關聯規則分析。結果：共錄入方劑453首，分類中以活血化瘀類最多，單味藥物中使用頻次最高的為當歸;因子分析提取出有效公因子9個，聚類分析得到藥組14個，關聯規則分析得出規則23條。結論：婦科名家治療不孕多以活血化瘀、補腎疏肝、燥濕化痰、清熱解毒為主要方法，活血常用桃仁-紅花、敗醬草-大血藤、蒲黃-五靈脂為藥對，補腎常以左歸丸為底方加減，疏肝則用開郁種玉湯為基底，后輩醫家臨癥遣方用藥可以此為參考，靈活應用于臨床。

關鍵詞數據挖掘;不孕癥;用藥規律;聚類分析;頻數分析;因子分析;關聯規則;名老中醫藥專家經驗

不孕癥是指婦女婚后未避孕，有正常性生活，夫婦同居1年而未孕的病癥[1]。據相關文獻統計，目前不孕癥發病率為8%～12%[2]。隨著社會發展的需要，“二孩政策”的開放，為延緩社會老齡化、增加出生率，不孕癥已經成為了公共衛生領域的研究重點。中醫對不孕癥的記載可追溯至《黃帝內經》，所謂“督脈者……此生病……其女子不孕”。中醫古籍中該病有“全不產”“絕嗣”“斷緒”之稱。不孕癥的病因病機錯綜復雜，當代中醫名家在臨床中積累了豐富的經驗，但治法方藥卻各有特色，由韓延華、羅頌平主編的《婦科名家診治不孕癥臨證經驗》一書，匯集了全國25個省份，95位婦科名家，包含國醫大師、全國第一批至第六批名老中醫藥專家學術經驗繼承工作指導老師，重點學科學術帶頭人、全國中醫婦科流派的代表性人物及主要傳承人治療不孕癥的經驗，充分展現出地域性差異和個體化治療不孕癥的特色。我們以此為基礎，運用數據挖掘技術，采用頻數分析、因子分析、聚類分析、關聯規則等方法對書中大量的醫案數據進行分析，旨在挖掘出名老中醫治療不孕的用藥規律，提煉出不孕癥治療的核心藥物，為中醫藥治療不孕癥提供切實可參考的經驗。

1 資料與方法

1.1 文獻來源 2019年由韓延華、羅頌平主編的人民衛生出版社出版的《婦科名家診治不孕癥臨證經驗》[3]。

1.2 檢索策略檢索《婦科名家診治不孕癥臨證經驗》一書所涉及的全部方劑。

1.3 納入標準 1）所選病案的醫家均為國家中醫藥管理局認可的全國名老中醫藥專家、國醫大師、中醫婦科流派代表性傳承人及主要傳承人。2）方藥組成、藥物劑量完備。3）首選辨證分型清晰的方劑。4）以中藥內服方劑為主。

1.4 排除標準 1）僅列方劑名稱，未詳述藥物組成與劑量的方劑。2）重復錄入的醫案和（或）方劑。3）以西醫治療或針灸等治療為主的醫案。4）病案主治癥狀復雜，不具備代表性的方劑。5）非水煎劑的方劑如外敷等。

1.5 數據的規范與數據庫的建立

1.5.1 數據庫的建立采用Excel 2010軟件建立數據庫，以二分類變量形式錄入，頻數分析、聚類分析、因子分析應用SPSS25.0軟件實現，關聯規則分析使用應用SPSS Modeler 18.0實現。

1.5.2 數據庫的規范按照《中藥學》[4]、《中藥大辭典》[5]標明的中藥名稱進行規范化處理，如“熟地”改為“熟地黃”“仙靈脾”改為“淫羊藿”;對于不同炮制方法的同一種藥物，如不影響藥物性味歸經則統一為一種，防止分析結果失真。

1.6 數據分析頻數分析：作為最簡單醫學統計方法之一，通常用來對醫學數據進行初步分析，得出量化依據，提煉高頻信息。在本研究中鑒于涉及的方劑、藥物眾多，應用頻數分析先初步篩選出高頻藥物，為后續系統深入分析用藥規律奠定基礎。

從《婦科名家診治不孕癥臨證經驗》一書中共錄入方劑453首，涉及中藥333味，總頻次為5 438。對所有中藥進行頻數分析后將頻次≥20的中藥進行降序排列，得到高頻中藥，并統計累計百分比，即藥物出現頻次占總頻次的百分比。

因子分析：因子分析是為了從大量數據中，提取可測變量間的共同因素，將大量變量簡化為具有代表性的少數潛在因子，利用潛在因子來發現數據的本質規律，是數據挖掘技術中典型的降維分析方法。本研究選取主成分分析算法，在高頻中藥中尋找其潛在規律，將相關聯比較密切的中藥歸在同一類中，每一類中藥就成為一個公因子，以最具代表性的公因子來反映不孕癥用藥的共性規律[6]。

對出現頻次≥20，累計百分比前80%的67味藥物進行因子分析，結果顯示巴特利特球形度檢驗：P=0<0.001，存在內部因子結構，KMO值為0.687，適合因子分析，特征根大于1時可提取出公因子23個，依據專業知識提取載荷系數絕對值大于0.4的有效藥物組合9個。

聚類分析：聚類分析的基本思想是對變量間的相似程度進行研究，通過計算相似性程度將相似程度大的變量聚合為一類，分類后的變量組內相似性最大，組間相似性最小，是分類學基本統計方法之一。聚類分析樹狀圖直觀表達了變量間的相似性大小，距離越大相似性越低，本研究借助聚類分析尋找在高頻中藥中存在密切聯系的藥物組合體，進一步分析不孕癥用藥規律[7]。

對出現頻次≥20，累計百分比前80%的67味藥物進行聚類分析，選取系統聚類組間連接法，詞篇矩陣選擇Ochiai系數，得出聚類譜系圖。藥物間橫軸距離越近即表示關系越緊密。

關聯規則：關聯規則是尋找變量之間的聯系規律和特征性結構的統計學方法，本研究選取最常用的Apriori算法，在大量方劑數據中尋找頻繁項集，依據頻繁項集計算提取相應關聯規則，其優點在于對大量無效規則的篩選，執行效率較高。本研究借助關聯規則分析通過支持度、置信度、提升度等指標，找到藥物間的最優匹配，最終得到不孕癥治療的核心藥對，支持度即指X和Y 2種藥物的交集在總體中出現的概率。置信度就是指出現了藥物X的方劑中，藥物Y也同時出現的概率。提升度為置信度與支持度的比值，提升度越高則關聯規則可信度越好，提升度小于1的規則應予剔除[8]。

采用SPSS Modeler 18.0進行關聯規則分析，并建立關聯規則網絡圖，對高頻中藥進行可視化探索，線條粗細表示關聯度的強弱。見圖2。線條越粗兩藥關聯度越強，如木香-砂仁、墨旱蓮-何首烏、蒲黃-五靈脂等，鑒于可視化探索信息丟失率較高，為分析出核心藥對，建立Apriori關聯分析模型，規定最低支持度5%，最小規則置信度70%，最大前項數1，剔除提升度小于1的相對無效規則，分析出核心藥對組合，并依據置信度由高到低排列。

因子分析、聚類分析、關聯規則分析三者分別從降維、分類、內部結構規則探索3個方面挖掘數據的隱含規律，三者結合能夠最大效率地減少統計分析中的信息損失，最全面地得到方劑數據中的規律。

2 結果

2.1 藥物使用頻率 67味高頻藥物累計百分比可達79.90%，最高頻次藥物為當歸273次，根據藥物功效可分為，活血化瘀藥、補陽藥、清熱藥、補氣藥、理氣藥、補陰藥、補血藥、清利水滲濕藥、溫里藥、解表藥、祛風濕藥、固澀藥、攻毒殺蟲止癢藥、化痰止咳平喘藥、止血藥、化濕藥。其中活血化瘀藥最多，共16味，累計百分比16.1%;補陽藥居次，共9味，累計百分比12.17%;理氣藥7味，累計百分比6.26%，清熱藥6味，累計百分比6.00%;補氣藥5味，累計百分比9.91%;補陰藥5味，累計百分比3.97%;補血藥5味，累計百分比8.70%。見表1。

2.2 高頻藥物因子 F1有中藥7種，F2有8種，F3，F4，F6均為5種。藥物分布情況見表2。

2.3 高頻藥物聚類由此可提取核心藥物組合14組，A1：三棱、莪術;A2：皂角刺、穿山甲;A3：桃仁、紅花;A4：丹參、赤芍;A5：敗醬草、大血藤;A6：延胡索、川楝子;A7：五靈脂、蒲黃;A8：女貞子、墨旱蓮;A9：淫羊藿、仙茅、巴戟天;A10：續斷、桑寄生;A11：白術、黨參、黃芪;A12：菟絲子、熟地黃、枸杞子、山藥、山茱萸;A13：當歸、川芎、白芍、香附、甘草、茯苓;A14：陳皮、半夏、蒼術。見圖1。

2.4 關聯規則得出高頻藥物關聯規則25條，其中提升度較高的依次為五靈脂-蒲黃、莪術-三棱、女貞子-墨旱蓮、續斷-桑寄生、茯苓-半夏、菟絲子-覆盆子、菟絲子-枸杞子、菟絲子-杜仲;置信度較高的為菟絲子-覆盆子、當歸-川芎、續斷-桑寄生、當歸-紅花、菟絲子-枸杞子、菟絲子-杜仲、當歸-熟地黃、當歸-白芍等。見圖2和表3。

3 討論

不孕癥是婦科領域的疑難病癥，是造成家庭不穩定的重要因素，全國各地婦科名家對于不孕癥的診治各有特色，因而在大量方劑數據中尋找名家的共性用藥規律對指導后輩醫家的臨床用藥大有裨益。女性不孕的主要病機是臟腑功能失常，沖任氣血失調，胞宮不能攝精成孕。腎氣盛，沖任二脈通盛，兩精適時相搏，方可攝精成孕。本研究經頻數分析后，發現婦科名家診治不孕癥的方劑中以活血化瘀藥最多，《諸病源候論》有云：“積氣結搏于子臟……陰陽血氣不調和，故病結積而無子?！迸有员旧茟讯嘤?，又求子心切，肝氣郁滯，瘀結沖任;或感染外邪直中胞中，蘊結血分，沖任不通，瘀阻胞宮，血瘀是女性不孕癥發展中的重要病理產物。姜俊雨[9]認為活血化瘀藥，能夠推動氣血經絡流暢運行，調和氣血，起到疏通輸卵管，恢復其攝精拾卵之功能，促進卵泡發育、排出的作用。此外方劑中大量出現補益類藥物，補陽、補陰、補氣、補血皆有，體現出陰陽并行，氣血同治的用藥特點，腎乃先天之本，若女子腎精不足，精不生血，則精枯血乏，無法妊養胞胎，應用補益類藥物可使氣血調和，陰平陽秘，為胞胎的生長發育提供基礎。與此同時，佐以理氣藥物使諸藥補而不滯，更能紓解肝氣之郁結，相輔相成。而清熱類藥物則具有較好的消炎功效，能夠消除輸卵管炎癥積液，暢通輸卵管，恢復其攝精拾卵的生理功能。

本研究中，因子分析和聚類分析雖然分別采取了降維和分類的分析方法，但其結果卻有交叉相似之處，例如F1-A12、F2-A1+A14、F3-A13、F4-A9、F5-A7、F7-A5等，對二者結合分析更能全面深入地挖掘出數據隱含的共性規律，使得本研究結果更具參考價值。F1-A12組均為補益藥，功效以補益肝腎，填精益髓為主，可謂陰陽并行，氣血皆益，F1組成與左歸丸藥物組成極為相似，于莎等[10]研究發現左歸丸能夠提高DOR不孕患者獲得有效胚胎的周期比率，進而提高輔助生殖技術的成功率;F2組中三棱、莪術，破血行氣消積，聚類分析A1組將此二味單獨分類，恰為龍江韓氏婦科常用藥對[11]，常用于治療輸卵管炎性不孕。隨著我國社會經濟高速發展，居民物質生活愈加豐富，部分女性常貪嘴好甜，恣食膏粱厚味，形體肥胖，痰濕內蘊，痰濁阻滯沖任，阻礙胞宮攝精受孕，《丹溪》云：“肥盛婦人，稟受甚厚……不能成孕……濕痰閉塞子宮故也?！碧岢鎏禎窳瞬辉械臋C制，F2組中半夏、陳皮、蒼術、枳殼相須為用，共奏燥濕化痰，理氣寬中之功;白術、茯苓補氣健脾，以填后天生化之源，通補兼施，化痰消濁，恰合痰濕不孕之治法;肝主情志，須其氣和志達，方能協調平衡全身氣機升降出入，而女子以肝為先天，以血為用，《筆花醫鏡》提到：“肝氣唯婦女易動焉，……一有逆意，即牢結胸中……郁久而成病?！备螢闆_任所系，若肝氣失調，木郁犯脾伐土，氣血頓失生化之源，沖任虛損，則妊養無力。F3-A13組以疏肝理氣，活血調經為主，其中當歸補血養肝、和血調經，香附疏肝解郁，理氣調經，川芎、白芍活血行氣、柔肝和營，配當歸則滋補陰血，補而不膩。F3-A13組的藥物組成，與傅山治肝郁不孕癥之“開郁種玉湯”極為相似，叢慧芳等[12]研究發現開郁種玉湯能夠有效改善肝郁腎虛型證候積分、焦慮自評量表積分，提高妊娠率。

F4-A9組以補陽藥為主，當中淫羊藿、仙茅合為二仙湯，與巴戟天相配，能起溫腎陽，益腎精，調沖任之效，墨旱蓮、白芍則兼顧肝腎，二仙湯能夠通過PI3K-AKT信號通路、MAPK信號通路、TNF信號通路等對卵巢功能產生影響[13]。F5-A7組蒲黃、五靈脂組成婦科常用方劑失笑散，能入肝經血分，治療瘀停胞宮脈道阻滯之癥;F6組以滋補肝腎，補氣健脾為主，聚類分析將其中的續斷、桑寄生提煉為核心藥對組合A10，能補肝腎、強筋骨、安胎元。A11則由白術、黨參、黃芪三味組成，具補氣升陽、生津養血安胎之效，使氣血化源充足，奠定胞宮妊養所需的良好環境;輸卵管炎性不孕以瘀滯為主，兼夾濕熱之邪，應治以活血行氣，化瘀通絡之品，而F7-A5組中敗醬草、大血藤能清熱解毒，活血祛瘀，與牛膝相伍能獲補肝腎，強筋骨，逐瘀通經之效，能夠疏解子管之瘀滯，復其攝精拾卵之能。研究認為大血藤的抗炎機制與TNF信號通路、NOD樣受體信號通路、凋亡、MAPK信號通路、Toll樣受體信號通路及核因子κB信號通路等密切相關[14];F8組中郁金活血止痛、行氣解郁，川楝子疏肝泄熱、行氣止痛，王不留行、路路通活血通經，體現出疏肝通經活血之法。

此外，因子分析和聚類分析還分別得出了一些核心藥對組合，如F9牡丹皮、女貞子，能清熱涼血、消炎鎮痛、滋補肝腎;A2：皂角刺、穿山甲，活血消癥、消腫排膿;A3：桃仁、紅花，活血調經、祛瘀止痛，二味常相須而用，治婦科血瘀諸癥;A4：丹參、赤芍活血祛瘀、涼血消痛;A6：延胡索、川楝子行氣活血止痛;A8：女貞子、墨旱蓮，補益肝腎，涼血止血，臨床可以考慮根據其藥效靈活加減應用。

在關聯規則結果中，五靈脂-蒲黃、莪術-三棱、女貞子-墨旱蓮、續斷-桑寄生、茯苓-半夏均為前文因子及聚類分析已述之藥對，不再贅述，3種數據挖掘算法得以相互印證及補充，增強了本研究結果的可參考性。另外在關聯規則網絡連接圖中，可以看出木香-砂仁組合，該組合行氣止痛為主，常用于輸卵管炎性不孕伴發的腹痛腹脹等癥。而墨旱蓮-何首烏則以滋補肝腎為主。在高頻藥物關聯規則25條中，與當歸相關的規則最多，可達13條之多，結合頻數分析，我們發現當歸在不孕癥的診治中具有不可或缺的地位，當歸素有“婦科圣藥“之名，現代藥理研究表明，當歸能增強人體免疫力，調節子宮平滑肌收縮，促進造血[15]，當歸酚性油對細菌具有抑制作用，能夠抑制慢性炎癥和組織水腫。根據其提升度大小，我們將與當歸相關的藥物進行重要性排序，由高至低的前5味藥物依次為川芎、紅花、熟地黃、白芍、枸杞子，提升度越高則婦科名家使用該藥物組合治療不孕癥的概率越高，可信度越大。其中當歸、川芎、芍藥、熟地黃四味即為四物湯，養血調經而促孕。Zhou等[16]通過實驗發現四物湯能夠顯著改善POF小鼠的雌激素水平、卵泡數量、抗氧化防御和微血管形成，顯著激活Nrf2/HO-1和STAT3/HIF-1alpha/VEGF信號通路以促進血管生成，改善妊娠結局。與菟絲子相關的規則居次共5條，重要性排序依次為，覆盆子、枸杞子、杜仲、紫石英、淫羊藿。針對排卵障礙性不孕，菟絲子是公認的能夠改善卵巢功能及女性激素水平的重要中藥，孫向明等[17]發現菟絲子可能具有與己烯雌酚相似的擬雌激素作用機制，能夠有效的影響體內生殖激素的水平。Gao等[18]通過檢測菟絲子總黃酮對基質金屬蛋白酶9及其相關通路上關鍵因子的表達，發現它是通過激活Notch/AKT/MAPK信號通路發揮作用的，能夠借此治療卵巢內分泌和生殖障礙相關疾病。雷娜等[19]發現，杜仲葉總黃酮可有效調節多囊卵巢綜合征大鼠血清中雌孕激素水平，并達到良好的治療效果。李錦英等[20]經網絡藥理學研究認為菟絲子-枸杞子藥對的多種活性成分可能通過PI3K/AKT信號通路、MAPK等多條通路作用于AKT1、TP53等靶點改善卵巢功能。

采用數據挖掘方法對全國中醫婦科名家的方劑進行分析，有助于從龐博紛雜的文獻資料中找到當代名家遣方用藥的共性規律，能夠為科研提供可靠的理論依據和更為清晰的研究方向，為后輩醫生診治不孕癥提供指導依據。本研究運用頻數分析、因子分析、聚類分析、關聯規則分析對95位婦科名家，453首方劑進行分析，并得出其共性核心藥物組合，發現婦科名家治療不孕多以活血化瘀、補腎疏肝、燥濕化痰、清熱解毒為主要方法，用藥中以當歸、白芍、菟絲子最為常見，后輩醫家臨癥可以此為參考，靈活應用于臨床。

參考文獻

[1]謝幸.婦產科學[M].北京：人民衛生出版社，2013：369.

[2]Vander Borght M，Wyns C.Fertility and infertility：Definition and epidemiology[J].Clin Biochem，2018，62：2-10.

[3]韓延華，羅頌平.婦科名家診治不孕癥臨證經驗[M].北京：人民衛生出版社，2019：23-615.

[4]高學敏.中藥學[M].上海：上?？茖W技術出版社，2011：341-345.

[5]南京中醫藥大學.中藥大辭典[M].上海：上?？茖W技術出版社，2006：1-194.

[6]于林童，曲文白，余新波，等.數據挖掘方法在名老中醫用藥規律研究中的應用現狀[J].中醫雜志，2017，58（10）：886-888，900.

[7]隋明爽，崔雷.基于SPSS的共現聚類分析參數選擇的實例研究[J].中華醫學圖書情報雜志，2016，25（1）：52-56.

[8]趙艷青，李青松，項敏泓，等.中醫藥數據挖掘中常見問題的思考與策略——以中醫藥術語及用藥規律總結為例[J].中華中醫藥雜志，2018，33（4）：1220-1225.

[9]姜俊雨.活血化瘀法治療不孕癥的研究[J].中國社區醫師，2019，35（8）：113-114.

[10]于莎，李江慧，龍慧，等.左歸丸加減對卵巢儲備功能降低腎陰虛證不孕患者體外受精-胚胎移植治療的影響[J].中國中醫藥信息雜志，2019，26（9）：29-33.

[11]韓延華.韓氏女科[M].北京：人民軍醫出版社，2015：287.

[12]叢慧芳，高強，欒毅峰，等.肝郁腎虛型體外受精-胚胎移植患者應用開郁種玉湯妊娠結局臨床觀察[J].遼寧中醫藥大學學報，2020，22（10）：5-8.

[13]李敏，郭淼，孫建華，等.二仙湯治療POI的網絡藥理學分析[J/OL].世界中醫藥：1-6[2021-08-24].http：//kns.cnki.net/kcms/detail/11.5529.R.20210527.1259.002.html.

[14]徐鋒，黃旭龍，張梅，等.基于網絡藥理學的大血藤抗炎作用機制研究[J].中華中醫藥學刊，2020，38（8）：249-253，29.

[15]黃紅泓，覃日宏，柳賢福.中藥當歸的化學成分分析與藥理作用探究[J].世界最新醫學信息文摘（連續型電子期刊），2019，19（58）：127，153.

[16]Zhou F，Song Y，Liu X，et al.Si-Wu-Tang facilitates ovarian function through improving ovarian microenvironment and angiogenesis in a mouse model of premature ovarian failure[J].J Ethnopharmacol，2021，280：114431.

[17]孫向明，宋輝，趙麗珠，等.菟絲子擬雌激素作用體內直接作用物質的發現[J].藥學學報，2021，56（7）：1826-1831.

[18]Gao F，Zhou C，Qiu W，et al.Total flavonoids from Semen Cuscutae target MMP9 and promote invasion of EVT cells via Notch/AKT/MAPK signaling pathways[J].Sci Rep，2018，26，8（1）：17342.

[19]雷娜，任鳳蘭，王娜梅.杜仲總黃酮對多囊卵巢綜合征模型大鼠相關激素水平的干預作用[J].中醫學報，2020，35（8）：1727-1731.

[20]李錦英，張兆萍，葉金飛，等.基于網絡藥理學的菟絲子-枸杞子藥對治療卵巢早衰的作用機制研究[J].中國藥房，2020，31（18）：2202-2209.

（2020-07-31收稿本文編輯：張雄杰）

數據挖掘技術論文范文第2篇

摘要：電力營銷系統是保證電力系統運行安全穩定性的重要組成部分。然而，其在實際運行使用過程中，卻受到數據信息種類混雜、數據內容繁多以及數據要求高等問題影響。為提高電力營銷系統的作用效率，相關建設人員應采用數據挖掘技術對系統內部數據信息進行科學合理分類與關聯。這是滿足現代化經濟建設對電力系統運行安全性、耐久性需求的關鍵，相關人員應將其作為重點課題，以促進電力營銷系統的科學合理發展建設進程。因此，本文對電力營銷系統中的數據挖掘技術進行了分析。

關鍵詞：數據挖掘；電力營銷；發展前景

1、數據挖掘技術及特點

數據挖掘屬于一種通用技術，伴隨著電子儲存技術和測繪技術的不斷發展，技術人員可以對信息數據進行儲存和測量，但是在獲取了大量數據的同時，卻缺少一種方法來對數據進行整理和利用。數據挖掘技術正是基于這種信息利用的現狀而產生的解決方案，它的出現為計算機數據處理技術帶來了極大地飛躍。

數據挖掘技術來源于機器學習，機器學習是一種相對比較機械的操作，對于歸納等技術使用頻率低，沒有指導性學習的辦法一般不從這些環境得出反饋，而是通過沒有干預的情況下進行歸納和學習，并建立一種理論模型。數據挖掘技術是在機器學習機械性的背景之下，更加關心提升計算機學習的能力與效率，讓計算機能夠在處理數據的過程中更加重視對數據的利用，是數據發揮其應有的價值。計算機學習的目的是搜集數據建立數據庫，而數據挖掘是要建立起對數據庫內容的二次利用，通過處理數據庫產生的異常以及缺項數據，將不同類型的數據進行整合利用。

傳統的數據處理方式和目前的計算機數據挖掘技術相比，傳統的數據處理將理論作為指導數據，而計算機數據挖掘技術與之最大的區別是技術出發點和原理不同，挖掘技術更多的是通過對學習方式的利用讓對計算機形成歸納學習的能力，在這個過程中對理論進行假設處理，從而更好的對數據進行分析和利用。

2、數據倉庫的系統結構

2.1相對穩固

數據的關鍵是為企業提供分析決策支持，它關聯的操作是數據查詢，通常不對數據進行修改。數據倉庫中的數據是由不一樣的時間數據組成的，而不是事務型的數據。

2.2面向主題

數據倉庫的主題為在一個比較高的層面把數據進行集合的標準，各個主題都是對應一個宏觀的處理領域，充分滿足此領域的決策分析需求。數據在進到數據倉庫前通過集合和加工，把原始的數據構造做到從面向運用到面向主題的改變。

2.3時間特征

數據倉庫的數據有著時間的特點。數據倉庫伴隨著時間的不斷變化，內容也在不斷的增加，同時需要刪除陳舊且沒有作用的內容。因為數據倉庫通常是作為趨勢的分析預測，通常保留5～10年的歷史數據。數據倉庫里的數據包括著時間的元素，是鍵碼的一個部分。

2.4集成性

數據倉庫中里的數據主要用作決策分析，要進行整合與歸納。要處理源數據里格式不同的情況，要求把它們統一到數據倉庫的模式中。數據倉庫體系是對進到數據倉庫的原始數據進行清洗、轉換、抽取等處理，最后將其進到數據倉庫里，把對數據倉庫里儲存的數據進行管理、更新、運用的有關工具與軟件進行整合，用于支撐數據倉庫管理與使用的決策。它常常是由分析工具、管理與數據倉庫構成，其具體的關系如圖1所示。

3、數據挖掘技術在電力營銷系統中的運用

3.1數據倉庫的開發

3.1.1數據倉庫的數據來源

電力營銷管理體系的實際要求與現狀是構成電力營銷數據倉庫的關鍵。電力營銷具有分散性，構成數據倉庫里的數據，許多來自不同用電數據庫中，這些數據庫大多來自于各個不同的數據庫，其中很大一部分數據庫來自不同區域的電力基層，還有一部分數據庫來自其他電力系統，甚至有一部分數據庫是電力系統以外的，一些數據還要求人工錄入，經過Web技術轉化與提取之后存儲在數據倉庫。

3.1.2數據倉庫的設計

（1）物理模型的設計：傳統的數據庫設計是先設計邏輯型，然后依據邏輯建立星形的模式，最終形成物理模型創建的模型方法。通常來說，物理模型的實現基本是邏輯模型，邏輯模型創建的星形圖能夠為創建實在的物理模型提供指標實體以及具體的種類實體，然而維度表常常不是變為直接的物理數據庫表，而為物理模型的創建提供查詢、整合、過濾與參考的數據。邏輯模型在數據庫里表現出物理模型，能夠達到數據的物理存取模式、數據儲存構造、數據存儲位置與分配等功效。

（2）概念模型的設計：主題的創建，即指標的確定。

在明確數據倉庫的類別與維度時，先針對元的數據庫系統的構造進行強化分析與理解，思考元數據在數據庫系統中的分布與組成形式，理解之后能夠建立數據倉庫系統的模型。

（3）邏輯模型的設計：物理模型是各個數據倉庫的主題相關的關系表，然而邏輯模式是此模式關系的體現。

3.2電力營銷決策支持系統

電力營銷決策支持系統主要是由決策層、決策工具層、支撐層與數據管理層構成。在電力營銷決策系統的建立中，要取得數據挖掘技術與數據倉庫的支撐。在電力營銷決策系統中要經過邏輯的判斷，對每種決策數據以及輔助決策的方法進行擇優選擇，整合出好的解決辦法。

3.3 EMDSS開發流程

電力營銷決策支持系統是根據數據倉庫技術的決策與制作定出有關的方法庫、模型庫與知識庫，并且對整個系統進行統一的管理。

4、結束語

伴隨著科學技術的發展進步，電力營銷系統中逐漸引入了諸如數據挖掘技術和數據倉庫技術以及聯機分析處理等多種新型技術，為電力營銷決策系統提供了更為準確、全面和詳盡的量化指標與參考數據。

參考文獻：

[1]許敏.數據挖掘技術在電力營銷系統中的應用及發展[J].科技與企業，2015，（10）.

[2]雷波.數據挖掘技術在電力營銷系統中的應用研究[J].廣東科技，2014，（12）.

（作者單位：國網遼寧省電力有限公司葫蘆島供電公司）

數據挖掘技術論文范文第3篇

在過去的二十年中, 經濟快速發展, 組織機構普遍都收集了大量的商業數據。電子商務市場也不甘示弱, 大大簡化傳統的交易方式, 把收集到的大量的商品、信息在現有的網絡平臺上得以交易。然而, 擁有大量的數據并不意味著擁有了豐富的商業信息。如何更加有效的管理利用潛在信息, 并發揮它們的最大效用已經成為人們關注的焦點。數據挖掘技術的產生, 在一定程度上解決了這個問題, 但它也存在著問題, 需要不斷改善。

1 數據挖掘

1.1 概念。

數據挖掘 (Data Mining) 是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中, 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的高級處理過程。它可以幫助企業在過去經驗的基礎上預測未來, 提高市場決策能力, 為企業構筑競爭優勢;幫助科學家從大量數據中發現規律, 提高科學研究效率。數據挖掘是一門交叉學科, 注重多種發現策略和技術的集成及多學科間的相互滲透, 把對數據的應用從低層次的簡單查詢, 提升到從數據中挖掘知識, 提供決策支持。

1.2 數據挖掘過程。

數據挖掘是一個循環往復的過程, 通常涉及數據準備、建立模型、評估和解釋模型、運用和鞏固模型等步驟。1.2.1數據準備:數據準備工作包括數據的選擇 (選擇相關和合適的數據) 、探索 (了解數據分布情況和異常數據等) 、修正 (包括缺失數據的插值等) 和變換 (離散值數據與連續值數據的相互轉換, 數據的分組分類, 數據項的計算組合等) 。1.2.2建立模型:選取數據挖掘工具提供的算法并應用于準備好的數據, 選取相應參數, 生成模型。1.2.3評估和解釋模型:對模型進行比較和評估, 生成一個相對最優模型, 并對此模型用業務語言加以解釋。1.2.4運用和鞏固模型:對模型在實際應用中的表現進行監控, 如果模型表現不好, 則對模型作進一步的考察和修正, 以反映業務運作規律的變化。

2 在電子商務中的應用

在電子商務中已經擁有許多成熟的數據庫應用系統, 如網管系統、財務系統、計費賬務系統等, 并產生了大量的業務處理數據。如果針對客戶關系管理相關決策分析的需求, 對這些數據進行重組整合, 就能充分利用這些寶貴的數據, 體現信息的真正價值。數據挖掘技術在電子商務客戶關系管理的主要應用領域如下:

2.1 客戶消費模式分析。

客戶消費模式分析是對客戶歷年來大量詳單、數據以及客戶檔案資料等相關數據進行關聯分析, 結合客戶的分類, 可以從消費能力、消費習慣、消費周期等諸方面對客戶的消費行為進行分析和預測, 從而為運營商的相關經營決策提供依據。

2.2 購物籃分析。

對銷售結果進行分析來判斷商品是否應該捆綁銷售。使用應用程序的結果來創建一個在線指導系統, 或者決定如何捆綁銷售能將利潤最大化。

2.3 市場分析。

通過對客戶自動分組來細分市場, 并由此結果做趨勢分析以設計市場活動。通過Web數據挖掘, 企業可以分析顧客的將來行為, 容易評測市場投資回報率, 得到可靠的市場反饋信息。不僅大大降低公司的運營成本, 而且便于經營決策的制定。包括以下方面:2.3.1客戶流失分析。創建報表顯示可能會取消服務的顧客。2.3.2數據瀏覽。由數據挖掘算法發現的模式能幫助您更好地了解您的客戶。它可以比較高價值客戶與低價值客戶之間的差異, 或者分析喜愛同一種產品的不同品牌的客戶之間的區別。2.3.3營銷活動分析。把錢花在刀刃上, 準確定位有效用戶, 讓我們的每一分市場經費都發揮最大的效用。2.3.4文本分析。分析反饋信息, 找到與你的客戶或者員工有關的共同主題或趨勢。

2.4 Web站點分析。

數據挖掘技術可提高站點的效率, Web設計者不再完全依靠專家的定性指導來設計網站, 而是根據訪問者的信息特征來修改和設計網站結構和外觀。站點上頁面內容的安排和連接就如超級市場中物品的貨架擺布一樣, 把具有一定支持度和信任度的相關聯的物品擺放在一起有助于銷售。網站盡可能做到讓客戶輕易地訪問到想訪問的頁面, 給客戶留下好的印象, 增加下次訪問的機率。

3 存在問題

數據挖掘系統背后要依靠大量真實可信的數據資源, 從社會方面看, 會涉及個人隱私、非法數據交易、數據價值評估等問題, 這些數據的獲取需要一套社會保障體系支持, 需要從法律、道德等方面制定相應的條款, 約束人們的行為。但從目前來看存在以下問題:這些數據積累不充分、不全面, 業務模型構建困難, 缺少有經驗的實施者。具體到電子商務, 主要表現在:

3.1 建模過程方面的問題。

時至今日, 數據挖掘的60-80%工作量仍花在數據準備階段。其實在建模過程也是需要大量的手工勞動的。目前的數據挖掘軟件工具中, 各算法采用默認的參數設置并不總是最合理的, 不能得到最佳的預測模型的, 因此對于每個電子商務業務的新問題, 都要重新探索數據的相關性, 進行算法參數的重新調整和配置, 以得到優化的模型。但是現實問題太復雜, 已有的原理并不能始終指導模型的調優方向, 更多的時候還是依賴大量的數據試驗摸索前進, 在某種程度上來說建模的過程也是漫長的、痛苦的。

3.2 準備過程的不確定。

事實上, 數據準備過程也飽含不確定性, 對于究竟應該選用哪些因素來建立模型, 以及因素的粒度應該多大, 目前缺乏足夠的判斷依據, 只能按照慣例、業務直覺和猜測來進行確定。目前對于電子商務的應用缺乏標桿模式作為參考, 學術界、有關的工業組織似乎還沒有此方面權威的研究總結。

3.3 數據趨勢預測的不確定。

數據是海量的, 那么數據中就會隱含一定的變化趨勢, 在電子商務中對數據趨勢的預測尤為重要, 特別是對客戶信息以及商品信息合理的預測, 有利于企業有效的決策, 獲得更多地利潤。但如何對這一趨勢做出合理的預測, 現在還沒有統一標準可尋, 而且在進行數據挖掘過程中大量數據形成文本后格式的非標準化, 也給數據的有效挖掘帶來了困難。針對這一問題的產生, 我們在電子商務中可以應用聚類分析的方法, 把具有相似瀏覽模式的用戶集中起來, 對其進行詳細的分析, 從而提供更適合、更令用戶滿意的服務。聚類分析方法的優勢在于便于用戶在查看日志時對商品及客戶信息有全面及清晰的掌控, 便于開發和執行未來的市場戰略, 包括自動給一個特定的顧客聚類發送銷售郵件, 為一個顧客聚類動態地改變一個特殊的站點等, 這無論對客戶和銷售商來說都是有意義。但是仍然存在一定的不確定性。

3.4 數據模型的可靠性。

數據模型包括概念數據模型、邏輯數據模型、物理模型。數據挖掘的模型目前也有多種, 包括采集模型、處理模型及其他模型, 但無論哪種模型都不是很成熟存在缺陷, 對數據模型不同采用不同的方式應用。

結束語

數據挖掘技術在一定程度上解決了電子商務信息不能有效利用的問題, 但它在運用過程中出現的問題也亟待人們去解決。相信數據挖掘技術的改進將推進電子商務的深入發展。同時相信數據挖掘會給人們帶來更多的方便。

摘要：網絡的發展推動了電子商務的繁榮, 但是如何更有效的運用海量數據, 并發揮最大效用, 仍然是人們關注的熱點。出現已有一段時間、應用范圍越來越廣泛的數據挖掘在一定程度上能解決此問題。探討數據挖掘在電子商務的應用研究變得很有意義。通過對數據挖掘概念及一般工作過程的研究, 數據挖掘在電子商務中應用的闡述, 運用數據挖掘技術如何在一定程度上解決電子市場繁榮背后隱藏問題的分析, 數據挖掘技術存在的問題很容易的呈現給研究者, 這將為為以后的研究奠定理論基礎。

關鍵詞：數據挖掘,方法,電子商務,應用

參考文獻

[1]施伯樂, 汪衛.數據倉庫與數據挖掘研究進展[J].計算機應用與軟件, 2003 (11) .[1]施伯樂, 汪衛.數據倉庫與數據挖掘研究進展[J].計算機應用與軟件, 2003 (11) .

[2]郭清, 樊治平, 鄭苗, 王建宇.ECCRM中的客戶知識管理[J].東北大學學報 (自然科學版) , 2004 (3) .[2]郭清, 樊治平, 鄭苗, 王建宇.ECCRM中的客戶知識管理[J].東北大學學報 (自然科學版) , 2004 (3) .

[3]廖明怡.CRM及其在電信業的應用[J].東北財經大學學報, 2005 (2) .[3]廖明怡.CRM及其在電信業的應用[J].東北財經大學學報, 2005 (2) .

[4]張玉葉, 徐寶文.基于代理的數據挖掘在Web預取中的應用研究[J].貴州工業大學學報 (自然科學版) , 2003 (1) .[4]張玉葉, 徐寶文.基于代理的數據挖掘在Web預取中的應用研究[J].貴州工業大學學報 (自然科學版) , 2003 (1) .

[5]趙志升, 羅德林, 李海英.OLAM-OLAP與DM相結合的新體系結構[J].電腦開發與應用, 2006 (11) .[5]趙志升, 羅德林, 李海英.OLAM-OLAP與DM相結合的新體系結構[J].電腦開發與應用, 2006 (11) .

[6]劉文昌.Apriori算法在客戶關系管理中的應用[J].長春大學學報, 2005 (4) .[6]劉文昌.Apriori算法在客戶關系管理中的應用[J].長春大學學報, 2005 (4) .

數據挖掘技術論文范文第4篇

［摘要］數據挖掘是指采用人工智能的方法對數據庫和數據倉庫中的數據進行分析、獲取知識的過程?，F代企業的發展離不開信息技術的融合運用，本文主要論述數據倉庫和數據挖掘技術在ERP中的應用。

［關鍵詞］數據倉庫；數據挖掘； ERP

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 23. 031

［

數據挖掘是指采用人工智能的方法對數據庫和數據倉庫中的數據進行分析、獲取知識的過程。本文探討將數據倉庫、數據挖掘技術運用于ＥＲＰ系統。以數據倉庫作為企業底層的數據源，再配合各種數據挖掘技術，結合ＥＲＰ的管理思想，發揮數據倉庫與數據挖擁技術在決策支持方面的長處。

１數據倉庫技術概述

１．１數據倉庫的特點

（１）面向主題。主題是在較高層次上對數據的抽象，面向主題的數據組織方式，就是在較高層次上對分析對象數據的一個完整、一致的描述，能完整統一地刻畫各個分析對象所涉及的企業的數據項，以及數據之間的聯系。

（２）集成。對多個異種數據源需先統一，然后進行數據的綜合和計算。

（３）時變。數據倉庫隨時間變化不斷增加新的、刪除舊的數據內容。

（４）非易失。數據倉庫總是物理地分離存放數據，由操作環境下的應用數據轉換而來。

１．２操作數據庫與數據倉庫

數據庫系統作為數據管理手段，主要用于事務處理，在數據庫中保存了大量的日常業務數據。

（１）用戶和系統的面向性不同：ＯＬＴＰ面向操作人員和低層管理人員；ＯＬＡＰ面向決策人員和高層管理人員。

（２）數據內容不同：ＯＬＴＰ是管理當前的數據，對基本數據進行查詢和增、刪、改操作處理，是以數據庫為基礎；ＯＬＡＰ是管理歷史的、導出的及綜合提煉的數據，比ＯＬＴＰ要多一步數據多維化或預綜合處理的操作。

（３）數據庫設計模型不同：ＯＬＴＰ采用Ｅ－Ｒ模型；ＯＬＡＰ采用星型或雪花模型。

１．３ＯＬＡＰ操作技術

ＯＬＡＰ的操作主要是對多維數據進行的，主要有上卷、下鉆、切片、切塊和轉動。

（１）上卷（也稱上鉆）：通過維層次向上攀升或通過維化簡，在數據上進行聚集。

（２）下鉆：是上卷的逆操作。如當前位置是區維，下鉆則是街道維、門牌維。

（３）切片：是在給定的一個數據方的一個維上進行選擇，形成一個子方。

（４）切塊：對兩個或多個維進行選擇。

（５）轉動：數據沒有發生改變，只是改變一個報告和頁面顯示維的方向。

２數據挖掘技術概述

２．１數據挖掘環境

數據挖掘是指一個完整的過程，該過程從大型數據庫中挖掘先前未知的、有效的、實用的信息，并使用這些信息做出決策或豐富知識。

在數據挖掘中被研究的業務對象是整個過程的基礎，它驅動了整個數據挖掘過程，也是檢驗最后結果和指引分析人員完成數據挖掘的依據和顧問。

２．２數據挖掘過程簡介

（１）確定業務對象。清晰地定義出業務問題，認清數據挖掘的目的是數據挖掘的重要一步。

（２）數據準備。數據的選擇：搜索所有與業務對象有關的內部和外部數據信息，并從中選擇出適用于數據挖掘應用的數據。數據的預處理——提高研究數據的質量，為進一步的分析作準備，并確定將要進行的挖掘操作的類型。數據的轉換——將數據轉換成一個分析模型，這個分析模型是針對挖掘算法建立的。

３ＥＲＰ概述

３．１ＥＲＰ的由來

企業資源計劃（ＥＲＰ）這一概念是由Ｇａｒｔｎｅｒ公司于２０世紀９０年代初提出的。它的發展一般來說是經過：訂貨點法、ＭＲＰ萌芽期、ＭＲＰ、閉環ＭＲＰ、ＭＲＰⅡ、ＭＲＰⅡ／ＪＩＴ、ＥＲＰ這樣幾個階段而逐步完善形成的。

３．２ＥＲＰ實質

ＥＲＰ是一個融合了多種先進管理思想的信息系統，其核心管理思想就是實現對整個供應鏈的有效管理。ＥＲＰ的基本思想是把企業的業務流程看作是一個緊密聯系的供應鏈，并將企業內部劃分成幾個相互協同作業的支持子系統，可對企業內部供應鏈上的所有環節有效地進行管理，從管理的范圍和深度方面為企業提供了更豐富的功能和工具。

４基于ＥＲＰ的數據倉庫

４．１數據倉庫在ＥＲＰ中的應用

建立基于ＥＲＰ的數據倉庫，首先是分析ＥＲＰ的數據模型，在其基礎上建立相應的數據倉庫數據模型，這時對關鍵數據的識別、整理、清洗、轉化和對主題域的確定非常重要，之后的數據抽取程序建立等工作也不容忽視。

建立基于ＥＲＰ的數據倉庫面臨的問題總的來說集中在兩個方面：一是如何將事務處理邏輯模型和數據倉庫模型對應起來，并將ＥＲＰ事務處理和外部數據導入數據倉庫中；二是在數據倉庫基礎上如何構建企業的商業智能系統來支持企業的管理決策活動，即數據倉庫的應用。

４．２實施ＥＲＰ項目注意事項

數據挖掘應從以下兩個方面加以考慮：一是為進行數據挖掘所做的數據準備；二是數據挖掘的各種分析算法。

數據準備包括兩個方面：一是從多種數據源中綜合數據挖掘所需要的數據，保證數據的綜合性、易用性、數據的質量和數據的時效性；二是從現有數據中衍生出所需要的指標。

隨著信息技術的不斷發展，各行各業的人們掌握了大量的數據，將數據倉庫、數據挖掘技術與ＥＲＰ有效的結合能夠最大限度地提高數據處理效率，并發現隱藏在數據之后的有用的知識和信息。這是未來企業信息技術應用發展的一個很重要的方向，有著廣闊的發展前景和應用價值。

主要參考文獻

［１］劉進．數據挖掘在學生信息管理系統中的應用［Ｄ］．重慶：重慶大學，２００８．

［２］［加］ＪｉａｗｅｉＨａｎ，ＭｉｃｈｅｌｉｎｅＫａｍｂｅｒ．數據挖掘：概念與技術［Ｍ］．北京：機械工業出版社，２００７．

［３］劉偉．信息管理與數據庫技術［Ｍ］．北京：機械工業出版社，２００５．

［４］梅姝娥，陳偉達．管理信息系統［Ｍ］．北京：石油工業出版社，２００３．

數據挖掘技術論文范文第5篇

分布式數據庫是由一組數據組成的, 這組數據分布在計算機網絡的不同計算機上。網絡中的每個結點具有獨立處理的能力, 稱為場地自治 (Autonomous) 。它可以執行局部的應用程序。同時, 每個結點也能通過網絡通信子系統執行全局的應用。這就是說, 每個場地是獨立的數據庫系統:它有自己的數據庫、一組終端、中央處理器、運行它自己的局部DBMS, 執行局部的應用程序, 具有高度的自治性。同時又相互協作組成一個整體, 這種整體性的含義是, 對于用戶來說, 從一個分布式數據庫系統的邏輯上看如同一個集中式數據庫系統一樣, 用戶可以在任何一個場地執行全局應用。

2 分布式數據庫的特點

物理上分布式數據庫的數據分散在各個場地, 但是在邏輯上卻是一個整體, 如同一個大的集中是數據庫一樣。于是, 在分布式系統中就有了全局數據庫和局部數據庫概念。全局數據庫是從系統角度出發研究問題的, 而局部數據庫則是從各個場地的角度出發研究問題。

局部應用主要涉及具體場地的數據庫, 而全局應用可以認為是涉及兩個或兩個以上場地的數據庫。數據庫中的數據不是存儲在同一場地式分布式數據庫系統與集中式數據庫系統的最大區別。而數據在邏輯上的“整體性”和物理上的“分布性”是分布式數據庫系統的兩個重要的特點。

3 分布式數據庫系統的優劣勢

分布式數據庫系統是在集中式數據庫系統的基礎上發展來的。比較分布式數據庫系統與集中式數據庫系統, 可以發現分布式數據庫系統具有下列優勢:

(1) 更適合分布式的管理與控制。分布式數據庫系統的結構更適合具有地理分布特性的組織或機構使用, 允許分布在不同區域、不同級別的各個部門對其自身的數據實行局部控制。

(2) 數據共享。DDBS中的數據共享有兩個層次:局部共享和全局共享。即各場地的用戶可共享本場地局部數據庫中的數據;全體用戶可共享網絡中所有局部數據庫中的數據。

(3) 靈活的體系結構。集中式數據庫系統強調的是集中式控制, 而DDBS更多地強調各個場地局部DBMS的自治性, 大部分的局部事務管理和控制就地解決, 只有涉及其它場地數據時才通過網絡作為全局事務處理。DDBMS可以設計成不同程度的自治性, 從具有充分的場地自治性到幾乎完全的集中式控制。

(4) 系統經濟, 可靠性高, 可用性好。與一個大型計算機支持一個大型的冀中是數據庫在加一些進程和遠程終端相比, 由超級微型計算機或超級小型計算機支持的分布式數據庫系統往往具有更高的性價比和實施靈活性。分布式系統比集中式系統具有更高的可靠性和更好的可用性。由于存在冗余數據, 個別場地或個別鏈路的故障不會導致整個系統的崩潰。同時, 系統可自動檢測故障所在, 并利用冗余數據恢復出故障的場地, 這種檢測和修復是在聯機狀態下完成的。

(5) 可擴充性好。當增加新的應用時, 可在新系統中增加新的結點而不影響現有系統的結構和系統的正常運行, 而且這種擴充不受結點計算機存儲容量和處理能力的限制。

分布數數據庫系統有如下劣勢:

(1) 通信開銷較大, 故障率高。

(2) 數據的存取結構復雜。一般來說, 在分布時數據庫中存取數據, 與集中式數據庫系統相比, DDBS更復雜, 為保證各場地之間的協調必須做很多額外的工作。

(3) 數據的安全性和保密性較難控制。在具有高度場地自治的分布時數據庫中, 不同場地的局部數據庫管理員可以采用不同的安全措施, 但是無法保證全局數據都是安全的。安全性問題是分布式系統固有的問題。因為分布式系統是通過通信網絡來實現分布控制的, 而通信網絡本身卻在保護數據的安全性和保密性方面存在弱點, 數據很容易被竊取。

4 幾種典型分布式數據庫系統

4.1 SDD-1 DDBMS

美國計算機公司 (Computer Corporation of America) 研制的SDD-1項目是第一個分布式數據庫管理系統的樣機。各地點由ARPANET連接, 并采用叫做數據計算機的當前DBMS。這個項目特別有助于理解分布式數據庫的重要問題和對其中某些問題的解決方法。

4.2 ENCOMPASS

ENCOMPASS是一種同構型分布式數據庫管理系統, 它是根據Tandem公司的Non Stop計算機體系結構和GUARDIAN OS建立起來的。計算機的體系結構和OS兩者都具有對實現分布式數據庫管理系統極其有用的特性。

Tandem公司的計算機的最好的特性在于它是由幾個 (至少兩個) 獨立CPU組成, 這些獨立的CPU利用高吞吐量總線連接起來, 共享對磁盤驅動器的訪問。因為Tandem公司的計算機的基本體系結構是分布式的, 所以Guardian操作系統能在由不同CPU執行的各進程之間提供方便的通信。各進程之間的所有通信都通過信息進行。信息系統可使硬件各單元的分布對進程是透明的。

4.3 IBM System R*

R*系統是在美國CA州的IBM San Jose Research Laboratory開發的。它的目的是建立協同操作, 卻是獨立的地點構成的分布式數據庫系統。每個地點支持一個關系數據庫系統。R*是R系統向分布式環境的自然擴展。

5 結束語

在過去的時間里, 分布式數據庫已經取得了很顯著的研究成果。大多數的數據庫管理系統開始走一條從集中到分布的道路。對分布數據管理的研究有兩個方面:一是單項的研究。比如數據的分布問題, 通信問題等。在研究一個問題時, 假定其它因素是不變的, 得出研究成果。此處還要研究的是要將各種因素綜合起來, 研究它們的相互作用和結果。數據庫設計和更新同步之間就有密切的聯系, 對于更新要求, 依據不同的更新同步方案, 對通信系統的要求也隨著不同。因此, 就要對這些因素綜合地考慮。二是對計算機網絡的研究。計算機網絡技術的迅速發展, 已經很大程度地影響到了數據庫和分布數據庫的領域。不管是在遠程網絡還是局域網領域, 都發生了很多的變比。局域網和遠程網之間的處理差別, 必然會導致處理數據庫和分布數據庫問題的顯然不同的一些原則和方法。

分布式數據庫系統已經成為信息處理學科的重要領域, 正在迅速發展之中。

摘要：介紹了分布式數據庫系統的定義、基于分布式數據庫系統的特點, 分析了分布式數據庫系統的優劣勢。結合典型分布式數據庫系統, 對分布式數據庫系統進行了進一步說明。

關鍵詞：分布式數據庫系統,優缺點,典型分布式數據庫系統

參考文獻

[1]趙致格.數據庫系統與應用[M].北京:高等教育出版社, 1994.

[2]邵佩英.分布式數據庫系統及其應用[M].北京:科學出版社, 2005.

[3]韓偉紅, 黃子中, 王志英.分布式數據庫的現狀和發展方向[J].計算機周刊, 1999 (23) .

[4]鄭振楣, 于戈, 郭敏.分布式數據庫[M].北京:科學出版社, 1998.

[5]陳爭航.分布式數據庫系統研究與應用[D].成都:西南交通大學, 2002.

上一篇：數據挖掘課程設計論文下一篇：高職英語聽力課程

點擊復制此文檔

熱門文章

數據專員工作總結數據分析年度工作計劃數據字典數據安全數據恢復數據挖掘數據挖掘技術論文數據挖掘課程設計論文數據管理

精品范文

全站熱搜

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火