<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據報告范文

2023-09-20

數據報告范文第1篇

一、全面開放基本氣象數據

中國氣象局歷來高度重視氣象數據的開放共享。自20世紀80年代起,氣象部門通過數據專線向行業部門實時傳輸氣象資料。2001年11月,開通了中國氣象數據網,面向公眾發布地面氣象觀測(198個站)、高空氣象觀測(88個站)兩類基本氣象資料,向科研和教育機構提供其所需的氣象資料。2015年9月29日,發布了《共享目錄》,進一步面向包括企業和個人在內的全社會開放氣象數據,還向行業部門和科研、教育機構開放了天氣雷達原始數據。此次氣象數據開放共享有以下幾個特點。

一是數據共享數量大。數據種類由地面氣象觀測和高空氣象觀測兩類,增加至地面氣象觀測、高空氣象觀測、氣象衛星、天氣雷達、數值天氣預報共5類,地面觀測站點數由之前的198個增加至2170個,并將中國氣象局在全國布設的所有天氣雷達站的實時圖像產品納入共享范圍,總數據量約3.0PB(1PB等于1000個TB,相當于50個國家圖書館的信息量總和),每日更新數據量約3.0TB。此外,為鼓勵和支持行業用戶、科研和教育機構使用更多的氣象數據,向行業、科研和教育機構開放共享了天氣雷達觀測原始數據,日數據量約30GB。

二是數據共享手段多。為方便不同用戶使用,中國氣象局利用數據專線、網絡檢索、專用數據接口及移動應用服務APP等多種手段提供數據共享服務。氣象部門通過數據專線向軍隊、民政、國土、環境、交通、水利、農業、林業、地震、海洋、民航等10多個行業部門實時傳輸氣象資料,日更新數據量達600GB,年傳輸數據量近20T B。通過中國氣象數據網、A P P等,面向社會公眾、科研和教育機構用戶發布、提供基本氣象資料和產品,自2001年中國氣象數據網開通以來,累計訪問量13億人次,注冊會員超過10萬個,累計下載數據量46TB。

三是數據更新頻率高。地面氣象觀測資料的更新頻率從原來的每日更新提高到每小時更新,新增開放的衛星數據實現每小時更新、數值天氣預報產品每6小時更新、天氣雷達原始數據和圖像產品實現了每6分鐘更新。同時,根據氣象觀測站網建設、資料質量和穩定性等情況,將每年定期更新《共享目錄》。

四是管理制度較完善。中國氣象局先后發布了《氣象資料共享管理辦法》(中國氣象局令第4號)、《涉外氣象探測和資料管理辦法》(中國氣象局令第13號)、《氣象信息服務管理辦法》(中國氣象局令第27號),對提供和使用氣象數據所應承擔的責任、義務等具體問題做出規范,保證數據開放工作穩步推進,為數據共享開放應用打好根基。

二、氣象數據開放應用效益顯著

氣象數據開放,向全社會和氣象信息服務企業提供了一個均等使用氣象數據的途徑,降低了各類市場主體獲取氣象數據的難度與成本,激發了氣象信息服務市場大眾創業、萬眾創新的熱情。自2015年9月《共享目錄》公布以來,中國氣象數據網新增用戶注冊數6710個,訪問量776萬人次,數據訂單數8.6萬個,數據服務量2.27TB。

氣象數據促進企業應用創新和效益提升。目前,中國氣象數據網企業實名注冊用戶數達104個,主要分布于我國東中部經濟發展水平較高的23個省(區、市),其中京津地區45個,長三角地區23個,廣東8個。企業注冊用戶主要從事專業技術服務(32%)、軟件(28%)、公共管理(14%)等行業(圖1),用戶將氣象數據與不同領域資源相融合,在交通運輸、新能源、農業、移動互聯軟件開發和服務、公共管理及基于大數據技術的智慧城市、智慧交通、智慧糧食等領域的開發建設中應用。例如:豐田汽車根據不同地區的氣溫數據改進輪胎參數,格力空調結合氣溫數據推動空調產品研發等。

中國氣象數據網對企業注冊用戶進行了問卷調查,19家高新企業、25家小型企業(100人以下)、4家微型企業(10人以下)共48家企業進行了回復,其中11家是《共享目錄》發布后新注冊成立或新增氣象相關業務的公司。調查結果顯示,氣象數據開放為企業節省了近百萬元開支,帶來的直接或間接效益約7410萬元,占全部新增效益的15.2%。尤其是小微企業可以基于氣象數據開放的均等地位,通過挖掘氣象數據信息提升核心競爭力,為氣象信息服務這一產業新業務的發展、壯大提供了有力支撐。

氣象數據開放激發萬眾創新活力。2015年10-12月,個人注冊用戶數月均增長122%。新增個人用戶以社會公益性行業為主,排名前5名的是地球科學(18.0%)、教育(16.6%)、氣象(14.3%)、環境與安全(10.0%)、農業(8.0%)(圖2);地域分布前5名的是北京(16.8%)、江蘇(8.3%)、廣東(6.8%)、四川(5.8%)、上海(5.0%)(圖3),京津地區、長三角、珠三角等經濟發展水平較高的地區用戶對氣象數據開放更加關注。個人用戶主要關注地面氣象觀測數據,占檢索量的50%以上。相比于企業用戶,個人用戶的涉及行業更加廣泛,應用方向涉及專業研究、行業規劃、交通保障等。數據開放為個人用戶創造了一個將氣象專業數據與個人專業領域結合應用的平臺,個人利用氣象數據創造更多的增值服務、個性服務,為國民經濟發展創造更大的活力和價值。

氣象數據開放支撐科研成果顯著增長。中國氣象數據網為清華、北大、浙大、南大、上海交大、中科院、社科院等2000余家高校、各類科研機構提供數據服務。2015年,支持國家科技支撐計劃、973、8 6 3、自然科學基金等重點科研項目共6 6 3項(表1),用戶應用氣象數據發表論文、論著及發布國家標準和行業標準共370篇(表2),分別較去年同期增長90%和26%。

氣象數據開放支撐行業協同發展。氣象數據有效支撐了環境、國土、水利、農業、林業、海洋、國防和經濟等各個領域的業務發展,特別是針對水利、航空等行業用戶的需求,開放共享主要省會城市、江河流域、機場周邊天氣雷達基數據,促進了各行業共同挖掘氣象數據的應用價值和效益。同時,為中國人民抗日戰爭暨世界反法西斯戰爭勝利70周年紀念活動、大氣污染防治、南水北調工程、北京申辦2022冬奧會、“東方之星”號客輪翻沉事件調查等重大事件提供了針對性氣象服務支持。

三、進一步加大氣象數據資源開放共享的措施

進一步擴大氣象數據開放,激發大眾創業、萬眾創新的市場活力。加大氣象數據開放力度,《共享目錄》向社會公布實現常態化的定期更新。在已經共享的基本氣象數據和產品的基礎上,不斷豐富數據開放的內容和形式,降低非專業用戶使用氣象數據的技術門檻,為各類企業、個人用戶提供均等使用機會,帶動社會公眾開展大數據增值性、公益性開發和創新應用,激發氣象信息相關企業的活力,激發大眾創業、萬眾創新的市場活力,促進社會經濟蓬勃發展。

不斷改進和提高氣象數據服務水平,促進氣象信息服務行業健康發展。緊密結合各類企業、個人、行業、科研和教育用戶需求,集成融合信息技術、整合相關數據資源,不斷拓展氣象數據服務的手段和途徑,改進完善共享服務平臺,建立信息反饋機制,定期開展共享服務效益評估,提升共享服務能力和信息化水平。完善氣象數據共享管理辦法,完善數據資源標準體系,健全氣象信息服務市場監管制度,依法依規監督、管理數據違規使用行為,讓各類主體公平分享數據開放帶來的技術、制度和創新紅利。

數據報告范文第2篇

流形學習方法作為一類新興的非線性維數約簡方法,主要目標是獲取高維觀測數據的低維緊致表示,探索事物的內在規律和本征結構,已經成為數據挖掘、模式識別和機器學習等領域的研究熱點。流形學習方法的非線性本質、幾何直觀性和計算可行性,使得它在許多標準的 toy 數據集和實際數據集上都取得了令人滿意的結果,然而它們本身還存在著一些普遍性的問題,比如泛化學習問題、監督學習問題和大規模流形學習問題等。因此,本文從流形學習方法存在的問題出發,在算法設計和應用(圖像數據與蛋白質相互作用數據)等方面展開了一系列研究工作。首先對流形學習的典型方法做了詳細對比分析,然后針對流形的泛化學習和監督學習、表征流形的局部幾何結構、構造全局的正則化線性回歸模型、大規模數據的流形學習等幾個方面進行了重點研究,提出了三種有效的流形學習算法,并和相關研究成果進行了理論與實驗上的比較,從而驗證了我們所提算法的有效性。

關鍵詞:流形學習,維數約簡,正交局部樣條判別投影,局部多尺度回歸嵌入

I

目錄

目錄 ................................................................................................................................................. II 第1章 研究背景 ....................................................................................................................... 1

1.1 流形學習的研究背景 ................................................................................................... 1 1.2 流形學習的研究現狀 ................................................................................................... 2 1.3 流形學習的應用 ........................................................................................................... 4 第2章 流形學習方法綜述 ....................................................................................................... 5

2.1 流形學習方法介紹 ....................................................................................................... 6 第3章 流形學習方法存在的問題 ........................................................................................... 9

3.1 本征維數估計 ............................................................................................................... 9 3.2 近鄰數選擇 ................................................................................................................. 10 3.3 噪聲流形學習 ............................................................................................................. 10 3.4 監督流形學習 ............................................................................................................. 11 第4章 總結 ............................................................................................................................. 11

II

第1章 研究背景

1.1 流形學習的研究背景

隨著信息時代的到來,使得數據集更新更快、數據維度更高以及非結構化性等問題更突出。在科研研究的過程中不可避免地遇到大量的高維數據,這就需要一種技術能夠使在保持數據信息足夠完整的意義下從海量數據集中提取出有效而又合理的約簡數據,滿足人的存儲需求和感知需要。流形學習這一非監督學習方法應運而生,引起越來越多機器學習和認知科學工作者的重視。而在海量的高維數據中,往往只有少量的有用信息,如果想快速高效的搜集到人們想要的、有用的那些少量信息且快速的處理信息,這就需要一些關鍵技術的支持,即是必須采用相應的降維技術。而流形學習正是在數據降維方面有著重要的貢獻。然而,降維的過程與《矩陣分析》中的內容有著密切的關系。

基于流形的降維方法能充分利用數據中所隱藏的低維有價值信息,進一步提高檢索性能。Seung從神經心理學的角度提出“感知以流形的形式存在,視覺記憶也可能是以穩態的流形存儲”,為流形提供了與人類認識相關的理由。流形學習的方法主要有主成分分析(PCA)、多維尺度化(MDS)、基于局部切空間排列法(LTSA)和基于等度規映射(ISOMAP)、局部線性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形學習方法在人臉識別、圖像處理、模式識別、計算機視覺、認知科學、人工智能、人機交互等眾多學科中有著廣泛的應用。

線性維數約簡方法是通過在高維輸入空間與低維子空間之間建立線性映射關系,把高維數據樣本集投影到低維線性子空間。線性維數約簡技術通常假設數據集采樣于一個全局線性的高維觀測空間。如果所要處理的數據集分布確實呈現出全局線性的結構,或者在一定程度上可以近似為全局線性結構,則這些方法能夠有效地挖掘出數據集內在的線性結構,獲得數據緊致的低維表示。在線性維數約簡方法中,使用最廣泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002; Turk and Pentland, 1991)

1 和線性判別分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根據高維數據在低維空間重構誤差最小的原則,來尋找一組最優的單位正交向量基(即主分量),并通過保留數據分布方差較大的若干主分量來達到降維的目的。然而,眾所周知,由于 PCA 算法沒有利用數據樣本的類別信息,所以它是一種非監督的線性維數約簡方法。與 PCA 算法不同,LDA 算法考慮到樣本的類別信息,它是一種有監督的方法?;诟黝悩颖痉母咚狗植记也煌惖膮f方差矩陣相同的假設,LDA 算法在 Fisher 準則下選擇最優的投影向量,以使得數據樣本的類間散度最大而類內散度最小。由于 LDA 算法利用了樣本的類別信息,而樣本的類別信息通常有助于改善識別率,因此 LDA 算法更適用于分類問題。

1.2 流形學習的研究現狀

流形學習假定輸入數據是嵌入在高維觀測空間的低維流形上,流形學習方法的目的是找出高維數據中所隱藏的低維流形結構。經過十多年的研究與探索,人們提出了大量的流形學習理論與算法。經典的流形學習方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部線性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002; Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差異展開算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005; Weinberger and Saul, 2004; Weinberger and Saul, 2006; Weinberger et al., 2004)、局部切空間排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形學習算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007; Lin et al., 2006)和局部樣條嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006; Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多維尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非線性推廣,其核心思想是用測地距離代替歐氏距離來表征流形上數據點的內在幾何關系。對于樣本

2 點和它的近鄰點之間的測地距離用它們之間的歐氏距離來代替;對于樣本點和近鄰點之外的點之間的測地距離用它們之間的最短路徑來代替。Bernstein 等人證明了只要樣本是隨機抽取的,在樣本集足夠大且選擇適當近鄰參數k 時,近鄰圖上兩點的最短路徑可以逼近它們的測地距離(Bernstein et al., 2000)。當應用于內蘊平坦的凸流形時,ISOMAP 算法能夠忠實地捕獲數據內在的低維流形結構(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺點在于:① 對樣本點的噪聲比較敏感;② 對于具有較大曲率或稀疏采樣的數據集,不能發現其內在的本征結構;③ 需要計算全體數據集的測地距離矩陣,因此算法的時間復雜度較高。圍繞 ISOMAP算法,已經出現了許多相關的理論分析與研究工作。

Balasubramanian 等人對ISOMAP 算法的拓撲穩定性進行了深入探討 (Balasubramanian and Schwartz, 2002)。對于數據分布所在的低維流形具有較大的內在曲率情況,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。為了減小 ISOMAP 算法的計算復雜度,de Silva 和 Tenenbaum提出了帶標記的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

針對 ISOMAP 算法對于數據集噪聲敏感的問題,Choi 等人通過觀察圖中的網絡流提出了一種消除臨界孤立點的方法以加強 ISOMAP 算法的拓撲穩定性(Choi and Choi, 2007)。在構建近鄰圖方面,Yang 提出通過構造k 連通圖方式來確保近鄰圖的連通性,以提高測地距離的估計精度(Yang, 2005)。

2009 年,Xiang 等人提出了局部樣條嵌入算法(LSE)(Xiang et al., 2006; Xiang et al., 2008)。Xiang 認為,對于嵌入在高維輸入空間的低維流形,非線性維數約簡的任務實際上是尋找一組非線性的復合映射,即由局部坐標映射(Local Coordinatization Mapping)與全局排列映射(Global Alignment Mapping)復合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通過主分量分析計算每個樣本點局部鄰域在切空間上的投影獲得該鄰域所有樣本的局部坐標,從而保持流形的局部幾何結構信息;然后采用Sobolev 空間的一組樣條函數把每個樣本點的局部坐標映射成

3 全局唯一的低維坐標。它們均是利用每個樣本的局部切空間來捕獲流形的局部幾何,樣本點在切空間的投影來表示樣本點的局部坐標。然而它們的主要區別在于全局排列,LTSA 算法是利用仿射變換來進行全局排列,而 LSE 算法是利用樣條函數來獲得全局唯一的坐標。因此相對于 LTSA 而言,LSE 算法能夠實現更小的重構誤差。LSE 算法的主要缺點在于:一是無法保持全局尺度信息;二是不能學習具有較大曲率的低維流形結構。除此,如何選擇滿足要求的樣條函數也是一個值得考慮的問題。

不同流形學習算法的區別在于所嘗試保持流形的局部鄰域結構信息以及利用這些信息構造全局嵌入的方法不同,與以往的維數約簡方法相比,流形學習能夠有效地探索非線性流形分布數據的內在規律與性質。但是在實際應用中流形學習方法仍然存在一些缺點,比如本征維數估計問題、樣本外點學習問題、監督流形學習問題和噪聲流形學習問題等。為了解決這些問題,相關的算法也不斷涌現出來。Freedman 等提出了一種基于簡化單純復形的流形重構方法來自動估計流形的本征維數(Freedman, 2002)。

為了解決樣本外點學習問題,研究人員分別在流形學習的線性化、核化和張量化等方面作了有益的探索(Yan et al., 2007)。Geng 等將樣本的類別信息融入到 ISOMAP 算法,提出了一種用于可視化和分類的有監督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一種基于局部線性平滑的流形學習消噪模型(Zhang and Zha, 2003)。這些方法的提出在一定程度上緩解了目前流形學習方法中存在的一些問題,但是還需要進一步充實和完善。

1.3 流形學習的應用

目前,流形學習方法的應用可歸納為以下幾個方面:

1) 數據的可視化。流形學習方法在高維數據的可視化方面有了廣泛的應用。人不能直接感知高維數據的內部結構,但對三維以下數據的內在結構卻有很強的感知能力。由于流形學習方法可以發現高維觀測數據中蘊含的內在規律和本征結構,而且這種規律在本質上不依賴于我們實際觀測到的數據維數。因此我們可以通過流形學習方法

4 對高維輸入數據進行維數約簡,使高維數據的內部關系和結構在低于三維的空間中展示出來,從而使人們能夠直觀地認識和了解高維的非線性數據的內在規律,達到可視化的目的。

2) 信息檢索。隨著多媒體和網絡技術的迅猛發展,圖像和文本信息的應用日益廣泛,對規模逐漸龐大的圖像和文本數據庫如何進行有效的管理已成為亟待解決的問題。靈活、高效、準確的信息檢索策略是解決這一問題的關鍵技術之一。這些圖像和文本信息呈現出高維、大規模、非線性結構,利用流形學習方法來處理這些信息,在大大降低時間和空間計算復雜度的同時,能夠有效地保留這些信息在原始高維空間的相似性。

3) 圖像處理。流形學習給圖像處理領域提供了一個強有力的工具。眾所周知,圖像處理與圖像中物體的輪廓以及骨架等密切相關。如果我們把圖像中物體的輪廓以及骨架等看成是嵌入在二維平面中的一維流形或者由一組一維流形構成,那么顯然流形學習方法憑借其強大的流形逼近能力可以應用于圖像處理領域。

第2章 流形學習方法綜述

流形學習方法作為一種新興的非線性維數約簡方法,主要目標是獲取高維觀測數據的低維緊致表示,探索事物的內在規律和本征結構,已經成為數據挖掘、模式識別和機器學習等領域的研究熱點。本章首先探討了流形學習的基礎性問題,即高維數據分析的流形建模問題;然后依據保持流形幾何特性的不同,把現有的流形學習方法劃分為全局特性保持方法和局部特性保持方法,并介紹了每一類方法中有代表性的流形學習算法的基本原理,對各種流形學習算法進行性能比較和可視化分析,最后就流形學習方法普遍存在的本征維數估計、近鄰數選擇、噪聲流形學習、樣本外點學習和監督流形學習問題等進行了分析和討論。

5 2.1 流形學習方法介紹

流形學習的定義:流形是局部具有歐氏空間性質的空間。假設數據是均勻采樣于一個高維歐氏空間中的低維流形,流形學習就是從高維采樣數據中恢復低維流形結構,即找到高維空間中的低維流形,并求出相應的嵌入映射,以實現維數約簡或者數據可視化。它是從觀測到的現象中去尋找事物的本質,找到產生數據的內在規律。

流形學習用數學語言描述是:令Y??yi?且?: Y??是一個光滑的嵌套,其中D >> d。那么流形學習的目標是基于?上的一個給定被觀測數據集合?xi?去恢復Y與? ,也就是在Y 中隨機產生隱藏的數據?yi?,然后通過? 映射到觀測空間,使得?xi?f?yi??。

從流形學習的定義中可以看出,這是一個把數據從高維映射到低維的過程,用到了線性變換,當然少不了矩陣的分解及其基本運算。 2.1.1 多維尺度分析(Multidimensional Scaling, MDS)

多維尺度分析(Multidimensional Scaling, MDS)是一種經典的線性降維方法,其主要思想是:根據數據點間的歐氏距離,構造關系矩陣,為了盡可能地保持每對觀測數據點間的歐氏距離,只需對此關系矩陣進行特征分解,從而獲得每個數據在低維空間中的低維坐標。

DDDx??x設給定的高維觀測數據點集為Y??U,i,觀測數據點對i,

Tyj間的歐氏距離為?ij?xi?yj,傳統MDS 的算法步驟如下:

a) 首先根據求出的兩點之間的歐氏距離

?ij構造n階平方歐式距離矩陣A???ij2? n?n。

6 b) 將矩陣A進行雙中心化計算,即計算

B??1HAH2(其中H 為中心化eeTH?I?n,將矩陣H左乘和右乘時稱為雙中心化)矩陣,。

c) 計算低維坐標Y。即將B奇異值分解,設B的最大的d個特征值??diag??1,?2,...,?d?Y??UT。

?u1,u2,...,ud??則d維低維坐標為,對應特征向量,U??雖然作為線性方法,MDS在流形學習中不能有效發現內在低維結構。但是從這一基本的算法中我們可以清楚的看出矩陣分析在流形學習研究中的應用。在這個MDS算法中,運用到了矩陣中的線性空間變換、矩陣特征值和特征向量的計算、矩陣的中心化計算、矩陣的奇異值的分解等相關知識點。想象一下,如果沒有這些知識點做基礎,這些算法如何進行。 2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多維尺度分析(MDS)基礎上的一種非線性維數約簡方法。ISOMAP算法利用所有樣本點對之間的測地距離矩陣來代替MDS算法中的歐氏距離矩陣,以保持嵌入在高維觀測空間中內在低維流形的全局幾何特性。算法的關鍵是計算每個樣本點與所有其它樣本點之間的測地距離。對于近鄰點,利用輸入空間的歐氏距離直接得到其測地距離;對于非近鄰點,利用近鄰圖上兩點之間的最短路徑近似測地距離。然后對于構造的全局測地距離矩陣,利用MDS算法在高維輸入空間與低維嵌入空間之間建立等距映射,從而發現嵌入在高維空間的內在低維表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>構造近鄰圖G

<2>計算最短路徑

<3>計算 d 維嵌入 (3)算法分析

7 ISOMAP算法是一種保持全局幾何特性的方法,它的低維嵌入結果能夠反映出高維觀測樣本所在流形上的測地距離。如果高維觀測樣本所在的低維流形與歐氏空間的一個子集是整體等距的,且與樣本所在流形等距的歐氏空間的子集是一個凸集,那么ISOMAP算法能夠取得比較理想的嵌入結果。但是當流形曲率較大或者流形上有“孔洞”,即與流形等距的歐氏空間的子集非凸時,流形上的測地距離估計會產生較大的誤差,導致嵌入結果產生變形。

從算法的時間復雜度來看,ISOMAP算法有兩個計算瓶頸(De Silva and Tenenbaum, 2003)。第一個是計算n×n 的最短路徑距離矩陣DG。當使用Floyd算法時,計算復雜度為O(n3) ;若采用Dijkstra算法,可將計算復雜度降低到O(kn2log n) ( k 為近鄰數大小)(Cormen, 2001)。第二個計算瓶頸源于應用MDS時的特征分解。由于距離矩陣是稠密的,所以特征分解的計算復雜度為O(n3) 。從中我們可以看出,隨著樣本個數n 的增大,ISOMAP算法計算效率低下的問題會變得十分突出。 2.1.3局部線性嵌入(LLE)

1、基本思想

與ISOMAP和MVU算法不同,局部線性嵌入算法(LLE)是一種局部特性保持方法。LLE算法的核心是保持降維前后近鄰之間的局部線性結構不變。算法的主要思想是假定每個數據點與它的近鄰點位于流形的一個線性或近似線性的局部鄰域,在該鄰域中的數據點可以由其近鄰點來線性表示,重建低維流形時,相應的內在低維空間中的數據點保持相同的局部近鄰關系,即低維流形空間的每個數據點用其近鄰點線性表示的權重與它們在高維觀測空間中的線性表示權重相同,而各個局部鄰域之間的相互重疊部分則描述了由局部線性到全局非線性的排列信息(Roweis and Saul, 2000)。這樣就可以把高維輸入數據映射到全局唯一的低維坐標系統。

2、算法流程

LLE算法的基本步驟分為三步: (1) 選擇鄰域

8 (2) 計算重構權值矩陣W (3) 求低維嵌入Y

3、算法分析

通過前面算法描述我們不難發現,LLE算法可以學習任意維具有局部線性結構的低維流形。它以重構權值矩陣作為高維觀測空間與低維嵌入空間之間聯系的橋梁,使得數據點與其近鄰點在平移、旋轉和縮放等變化下保持近鄰關系不變。而且LLE算法具有解析的全局最優解,無需迭代。在算法的計算復雜度上,選擇鄰域的計算復雜度為O(Dn2) ,計算重構權值矩陣的計算復雜度為O((D+k)k2n) ,求解低維嵌入Y 的計算復雜度為O(dn2) 。因此與ISOMAP和MVU算法相比,LLE算法的計算復雜度要小得多。

但LLE算法也存在一些缺點:① 由于LLE算法只是保持局部近鄰的重構權值關系,并不是保持距離關系,因此,LLE算法通常不能很好的恢復出具有等距性質的流形。② LLE算法希望樣本集均勻稠密采樣于低維流形,因此,對于受噪聲污染、樣本密度稀疏或相互關聯較弱的數據集,在從高維觀測空間到低維嵌入空間的映射過程中,可能會將相互關聯較弱的遠點映射到局部近鄰點的位置,從而破壞了低維嵌入結果。

第3章 流形學習方法存在的問題

流形學習相對于傳統的線性維數約簡方法來說,它能夠更好地發現高維復雜非線性數據內在的幾何結構與規律。但其各種算法本身還存在著一些普遍性的問題,比如本征維數估計問題、近鄰數選擇問題、噪聲流形學習問題、泛化學習問題和監督學習問題等。本小節將對這些問題進行簡要的分析和討論。

3.1 本征維數估計

本征維數估計是流形學習的一個基本問題(趙連偉 et al., 2005)。本征維數一般被定義為描述數據集中所有數據所需要的自由參數(或獨立坐標)的最小數目。它反映了隱藏在高維觀測數據中潛在低維流形的拓撲屬性。在非

9 線性維數約簡過程中,本征維數估計的準確與否對低維空間的嵌入結果有著重要的影響。如果本征維數估計過大,將會保留數據的冗余信息,使嵌入結果中含有噪聲;相反如果本征維數估計過小,將會丟失數據的有用信息,導致高維空間中不同的點在低維空間可能會交疊。因此,設計穩定可靠的本征維數估計方法將有助于流形學習算法的應用和性能的改善。

目前現有的本征維數估計方法大致分為兩大類:特征映射法和幾何學習法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998; Fukunaga and Olsen, 1971)和多維尺度分析方法(Cox and Cox, 2000),它主要利用了數據分布的本征特征是數據的局部特征的基本思想,對局部數據進行特征分解,選取對應特征值最大的特征向量作為本征特征。顯然,這類方法所估計的本征維數大小在很大程度上取決于數據的局部鄰域劃分和閾值的選擇,因此特征映射方法不能提供本征維數的可靠估計。幾何學習法主要基于最近鄰距離(Nearest Neighbor Distances)或分形維(Fractal Dimension)(Camastra, 2003)來探索數據集所蘊含的幾何信息,這類方法通常需要充足的樣本數,因此,對于樣本數少、觀測空間維數較高的情況,經常會出現本征維數欠估計的情況。

3.2 近鄰數選擇

流形學習探測低維流形結構成功與否在很大程度上取決于近鄰數的選擇(Zeng, 2008),然而在構造近鄰圖時如何選擇一個合適的近鄰數是一個公開的問題。如果近鄰數選擇過大,將會產生“短路邊”現象(“short-circuit” edges),從而嚴重破壞原始流形數據的拓撲連通性。

3.3 噪聲流形學習

當觀測數據均勻稠密采樣于一個理想的低維光滑流形時,流形學習方法可以成功地挖掘出其內在的低維結構和本質規律。但是在實際應用中,我們經常發現高維采樣數據由于受各種因素的影響,一般總是存在著噪聲和污染,這將勢必影響流形學習算法的低維嵌入結果。

10 3.4 監督流形學習

現有的流形學習方法多數用于無監督學習情況,如解決降維與數據可視化等問題。當已知數據的類別信息,如何利用這些信息有效地改進原始流形學習算法的分類識別能力是監督流形學習所要解決的問題。從數據分類的角度來看,人們希望高維觀測數據經過維數約簡后在低維空間中類內差異小而類間差異大,從而有利于樣本的分類識別。原始的流形學習算法都是無監督學習過程,一些引進監督信息的改進算法紛紛被提出來(Li et al., 2009; Zhao et al., 2006)。這些方法的基本思想是利用樣本的類別信息指導構建有監督的近鄰圖,然后利用流形學習方法進行低維嵌入。盡管這些方法能夠獲得較好的分類結果,但是這種通過類別屬性構建的近鄰圖往往會被分割成多個互不相連的子圖,而不是一個完整的近鄰圖,這就給原始流形學習算法的最終應用帶來了很大的不便。

第4章 總結

流形學習是一個具有基礎性、前瞻性的研究方向,其研究成果和技術已經立即應用于模式識別、計算機視覺、圖像處理等相關領域。如高維數據的可視化、可聽化;基于內容檢索的模型;視頻中三維對象的跟蹤和檢測;從靜態二維圖像中進行三維對象的姿態估計和識別;二維和三維對象的形狀重構;從運動中構建結構、從陰影中成形等。此外流形學習還應用于自然語言處理、基因表達分析等生物信息處理領域,特別是在基因表達分析中,用于檢測和區分不同的疾病和疾病類型。

盡管流形學習的算法和應用在過去的幾年中已經取得了豐碩的成果,但是由于其數學理論基礎較為深厚復雜,以及多個學科之間交叉融合,所以仍有許多亟需研究和解決的問題,尤其在下述幾個方面:

1.目前已有很多流形學習算法,但很多算法只是建立在實驗的基礎之上,并沒有充分理論基礎支持,所以我們一方面要進一步探索能夠有效學習到流形局部幾何和拓撲結構的算法,提高流形投影算法的性能,另外更重要的是要不斷完善理論基礎。

11

2.各支幾何都是研究空間在變換群下的不變性,微分幾何亦是如此。而很多情況下我們正需要這種不變性,所以研究局部樣本密度、噪聲水平、流形的正則性、局部曲率、撓率結構的交互作用對流形學習的研究有積極促進作用。

3.統計學習理論得到充分發展并逐漸成熟,流形學習理論在其基礎上發展自然可以把統計學中有用的技術應用于流形學習中,如流形上的取樣和Monte Carlo估計、假設檢驗,以及流形上關于不變測度的概率分布密度問題,都值得進一步研究。

4.目前大部分學習算法都是基于局部的,而基于局部算法一個很大缺陷就在于受噪聲影響較大,所以要研究減小局部方法對于噪聲和離群值的影響,提高學習算法魯棒性及泛化能力。

5. 譜方法對噪聲十分敏感。希望大家自己做做實驗體會一下,流形學習中譜方法的脆弱。

6.采樣問題對結果的影響。

7. 一個最尷尬的事情莫過于,如果用來做識別,流形學習線性化的方法比原來非線性的方法效果要好得多,如果用原始方法做識別,那個效果叫一個差。也正因為此,使很多人對流形學習產生了懷疑。

8. 把偏微分幾何方法引入到流形學習中來是一個很有希望的方向。這樣的工作在最近一年已經有出現的跡象。

參考文獻

[1] R. Basri and D. W. Jacobs. Lambertian reflectance and linear subspaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003. [2] R. Vidal. Subspace clustering. IEEE Signal Processing Magazine, 28(2):52–68, 2011. [3] J. Shi and J. Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000. [4] G. Liu, Z. Lin, S. Yan, J. Sun, Y. Yu, and Y. Ma. Robust recovery of subspace structures by low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013. [5] E. Elhamifar and R. Vidal. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781,

12 2013. [6] Y. Wang, Y. Jiang, Y. Wu, and Z. Zhou. Spectral clustering on multiple manifolds. IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011. [7] B. Cheng, G. Liu, J. Wang, Z. Huang, and S. Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011. [8] C. Lang, G. Liu, J. Yu, and S. Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.

數據報告范文第3篇

鐘星 中國三星研究院 戰略組首席研究員

【中國企業家網】騰訊的“企鵝仔”不久前被插上了利刃,背上了“阻礙互聯網創新“的罵名。從一款 即時通訊軟件,到2001年的無線增值業務,再到游戲、門戶、電子商務、第三方支付、搜索引擎,過去十幾年間,騰訊完成了互聯網產業幾乎所有業務的布 局,2010年

已悄然成為世界第二大互聯網公司。

那么,騰訊是如何成長為讓人“痛恨”的大公司的呢?騰訊的軟肋何在?

騰訊三級跳

騰訊(Tencent)是中國創立最早、最成功的互聯網企業之一。1998年11月12日,馬化騰與張志東共同籌資注冊成立“深圳市騰訊計算機系統有限 公司”,推出無線互聯網尋呼解決方案。經過10年的高速發展,騰訊成長為中國最值錢、最賺錢的互聯網專業公司之一。目前騰訊業務橫跨即時通信、網絡游戲、 社交網絡、互聯網增值服務等領域,收入來源多樣,各項業務穩健快速增長。2009年,騰訊營收總額達到人民幣124億元,凈利潤52億元,市值

超過 400億美元。

近來騰訊動作頻頻,采取一系列步驟擴大自己的版圖,其未來動向引人矚目。業務面上,騰訊利用自己在中國網民中的知名度和QQ聚 集的用戶群頻頻出手,突入其他互聯網公司的核心業務領域,實現遍地開花式增長。騰訊通過在QQ中捆綁多款游戲突入利潤豐厚的網游市場,并在2009年二季 度成功超越盛大,成為國內營業收入最高網游運營商。推出搜索引擎“搜搜”和C2C電子商務服務“拍拍”拳打百度、腳踢阿里巴巴;經過數年的布置,這兩項業 務開始發力,可能成為騰訊新的增長點。

騰訊旗下網站QQ.com已經成功超越新浪、搜狐等老牌互聯網門戶,成為中國瀏覽量最大的綜合性門戶網 站。在戰略面上,騰訊通過戰略聯盟、合資、并購等手段逐漸組成一個多維度的企業群體,支撐公司的業務擴張。騰訊與老朋友中移動的合作進入一個微妙的狀態, 一方面兩者的合作內容更豐富也更深入,另一方面中移動對拓展移動互聯網版圖的野心導致兩者原本親密無間的關系出現嫌隙。騰訊通過與巨人、TTWO、游戲蝸 牛等合作不斷豐富網游品種,同時收購網域,提升開發新網游的能力。入股“愛幫網”,并實現搜搜與愛幫搜索結果的整合,強化搜搜提供地圖導航、餐飲旅游等本 地化信息的能力。通過投資DST再由后者收購 ICQ的手法曲線打入國際即時通信市場,為國際化鋪路。與英特爾(Intel)、思科(Cisco)合作,致力于基于互聯網的較為基礎性的研究,顯示騰訊 已經具備支撐企業長期可

持續發展的技術和資金實力。

騰訊的發展模式為我們了解中國互聯網行業發展、提升中國互聯網企業競爭力提供一個研究范 本。騰訊的成長歷程體現了一些較成功的中國互聯網企業的共同特性。騰訊與網易、百度、搜狐、新浪、阿里巴巴類似,都是在90年代末或世紀初受國外同類公司 啟發而成立;在中國互聯網大發展的背景下快速成長、赴美上市。都受到互聯網泡沫破裂的波及,而目前

已經成為互聯網行業領軍企業。

另一方面,騰 訊的發展歷程有其特殊性,騰訊的發展經驗對于其他中國互聯網企業有一定的借鑒意義。騰訊充分利用與通信運營商的關系,是最早實現盈利的中國互聯網公司之 一。雖然是通過復制國外某產品而成立的公司,但騰訊充分利用自己對本土市場的理解不斷推出極具創意的新產品和服務項目,把騰訊打造成互聯網“印鈔機”。

中國互聯網行業發展可分為跑馬圈地、大浪淘沙、移動互聯網三個階段。

1994年中國獲準加入互聯網。1995年瀛海威成為中國第一家互聯網服務供應商。1997年6月,以中國第一家門戶網站網易(Netease)注冊成 立為標志,中國互聯網行業進入跑馬圈地時代。1998年至2000年1月,短短不到兩年時間,搜狐、騰訊、新浪、阿里巴巴、當當、百度相繼成立,形成中國 互聯網企業第一軍團;而1999年7月,中華網更是成為第一家在納斯達克(Nasdaq)上市中國互聯網企業。這一階段的中國互聯網企業發展,以“燒錢” 和“跑馬圈地”為特點,各企業尚未找到合理的盈利模式,只是以eBay、Amazon、Yahoo等公司為藍本進行復制?;ヂ摼W企業利用先行優勢 (first mover advantages)利用新鮮創意在短時間內聚集龐大客戶群;而投資者的蜂擁而至為互聯網概念企業融資提供了便利。

2003年,網易、搜狐、新浪分別實現盈利,標志著中國互聯網行業進入大浪淘沙階段。在經過第一階段的客戶積累之后,各公司在盈利模式的探索上取得進 展,或向傳統媒體靠攏,依靠廣告收入掘出第一桶金;或搭建自己的電子商務平臺,開起了網上超市;或瞄準特定群體,靠網游盈利;而大量互聯網企業迷失在尋找 盈利模式的征途中,在客戶群高增長的光

環褪去后敗下陣來。

2009年1月,工信部發出3張3G牌照,宣布中國正式進入移動互聯網時代。智能手機普及、各電信運營商補貼發展3G用戶,移動互聯網民總數激增,互聯網企業面臨新一輪的跑

馬圈地。

和大多數中國互聯網企業一樣,騰訊憑借著在國內市場的先行優勢,迅速建立起龐大的用戶群,并以此為基礎建立適合自己的盈利模式,實現企業發展三連跳。在 中國互聯網界關注門戶網站的模式之時,騰訊悄然進入即時通信市場,推出國內最早的即時通信軟件OICQ(之后由于版權問題更名為QQ)。OICQ最初的設 計從內容、形式等方面幾乎照搬ICQ,可以算作ICQ的中文版。當時市面上陸續出現一批以ICQ結尾的中文即時通信軟件,如廣州市電信局等單位開發的網絡 尋呼機PCICQ、福建諾斯公司開發的TICQ,以及從港臺等地輸入的PICQ。當時互聯網在國內仍是新鮮事物,用戶對互聯網操作感到生疏,而QQ 正迎合了第一代網民的需要,界面簡單、免費、易上手,迅速積累了龐大的客戶群,完成第一

跳。

1999年2月10日,騰訊正式推出即時通信軟件 QQ99,僅僅9個月后,QQ注冊用戶數即突破百萬。2000年5月27日,QQ同時在線人數突破十萬,隔天的《人民日報》即對此事進行了報道;消息發表 一個月后,QQ注冊用戶數突破千萬。2001年2月,QQ同時在線用戶數突破100萬,注冊用戶增至5000萬。2002年3月QQ注冊用戶數突破1億。 2010年3月5日19點52分5秒,同時在線用戶數突破1億,成就一個互聯網奇跡。

QQ同時在線用戶與中國互聯網用戶增長

數據來源:騰訊網站,CNNIC,三星經濟研究院整理

迅速積累起來的龐大客戶群,為騰訊帶來和移動運營商合作的機會,借助后者的平臺實現盈利,成就騰訊的第二跳。騰訊是最早與傳統行業內公司建立合作關系的 中國互聯網公司之一,通過與中國移動、聯通等電信公司合作,一方面實現與其他即時通信服務商的差異化,另一方面解決了支付渠道的問題。2000年5 月,騰訊與深圳聯通公司合作推出移動QQ,實現短消息和QQ互通;6月,騰訊與廣東移動簽署“即時通—移動QQ”協議。短消息和QQ互通極大刺激了用戶的 支付意愿,騰訊適時推出“包月”服務,通過與移動簽訂手機代收費的“二八分賬”協議,解決了盈利模式的難題。在各大電信運營商加大對電信增值業務扶持力度 這一背景下,QQ在即時通信行業的領先地位使騰訊左右逢源。中移動的“移動夢網”、聯通的“互動世界”、中國電信的“互聯星空”等都選擇騰訊QQ作為合作 對象。2001年,在推出移動QQ之后一年,騰訊首次實現盈利,成為最早實現盈利的中國互聯網公司,漂亮完成企業發展的第二跳。

數據報告范文第4篇

2009年01月07日 19:42:13來源:新華網 新華網北京1月7日電(記者錢春弦)在自然災害、突發事件及全球金融危機等因素沖擊下,2008年中國旅游業保持了平穩發展。預計全年旅游總收入可達1.14萬億元,增長約4%。

國家旅游局局長邵琪偉7日在此間召開的2009年全國旅游工作會議上說,2008年中國經歷了南方低溫雨雪冰凍災害、汶川特大地震兩場歷史罕見的災害考驗,經受了影響不斷蔓延和擴散的國際金融危機的嚴重沖擊,保持了旅游業平穩發展。

邵琪偉說,預計2008年中國國內旅游可達17億人次,增長約6%;國內旅游收入8700億元,增長約12%;入境旅游1.3億人次,下降約2%;入境過夜旅游5300萬人次,下降約3%;旅游外匯收入400億美元,下降約5%;出境旅游4600萬人次,增長約12%。

邵琪偉說,2008年下半年以來,針對國際金融危機不斷蔓延,中國旅游業增幅明顯放緩,入境旅游出現自“非典”以來首次負增長的嚴峻形勢。中國旅游行業認真貫徹中央關于擴大內需、促進消費的部署,及時調整工作思路,把國內旅游放在更加突出的位置,制定了旅游業擴大內需促進消費的一系列措施。千方百計幫助旅游企業克服困難。

數據報告范文第5篇

紅色字體部分根據具體實驗參數自行修改

一 實驗目的和要求

通過實驗了解地震數據的采集方法和觀測系統的設計方法。 二 實驗內容

1、了解地震數據的采集方法。

2、地震觀測系統的設計。

3、實驗觀測結果的分析。 三 實驗儀器設備

Summit或Geopen數字地震儀、100hz地震檢波器12串、錘擊震源1個、地震采集站2個(Summit為6個)。 四 實驗原理

參考課本和上課老師講的內容,自己總結。 五 實驗步驟

1、畫出合適的觀測系統(單邊激發,每炮12道接收,每炮向前滾動1道,共12炮,道間距為1m),合理設置儀器參數。

2、將檢波器、采集站、擊發錘、炮線和儀器連接,檢查儀器的相關參數。

3、用擊發錘多次敲擊地面,產生地震波,由檢波器接收并轉化為電信號,通過電纜傳輸到儀器中,進行重復疊加后記錄到磁盤上,獲得一張地震記錄。

4、 根據直達波時距曲線為直線、反射波時距曲線近似為雙曲線的特點,在地震記錄中識別出直達波、反射波和面波。

5、向前移動檢波器排列,并重復

2、

3、4和5步驟。 五 實驗結果

根據不同類型地震波的特點在下圖所示的地震記錄中識別直達波、反射波、折射波和面波,并指出直達波、反射波和折射波時距曲線的關系。

數據報告范文第6篇

----云數據庫實例分析

上次報告將云數據庫的相關知識做了簡介,這次報告共三部分內容,一是對幾個概念做簡單講解,二是云計算對數據庫發展的影響,三是云數據庫案例。

一、云數據庫的一些概念說明

關系型數據庫-------對應------非關系型數據庫(針對數據結構而言) 分布式數據庫系統------對應-----集中式數據庫(針對位置而言) 云數據庫-------對應-------傳統數據庫(是否應用云計算而言)

所以關系型數據庫和云數據庫并不是一個層面上的。 云數據庫可以是關系型數據庫例如微軟開發的SQL Azure就是關系型云數據庫,也可以是非關系型數據庫例如谷歌開發的Bigtable,亞馬遜的SimpleDB就是非關系型數據庫。

云數據庫是大多是分布式數據庫,傳統數據庫多為集中式數據庫。

二、云計算對數據庫發展的影響

正如MongoDB工程副總裁Geir Magnusson所指出那樣,“在云計算計劃里將找不到關系數據庫的影子,這并非偶然,因為關系數據庫不適合用于云計算環境”。同時他還指出:“云計算是一種不同的技術,不同得足夠改變開發者看待問題和解決問題的方式”。

許多被專門開發用于云計算環境的新型數據庫,包括Google韻Bigtable,Amazon的SimpleDB,MongoDB的Mongo。這些數據庫均為分布式數據庫,沒有一個是關系型數據庫。

這些數據庫具有一些共同特征,正是這些特征使它們特別適用于服務云計算式的應用。它們中的大多數可以在分布式環境中運行,這意味著他們可以分布在多個地點的多臺服務器上。在跨越地理空間距離之間執行復雜查詢以便減少響應時間、設計和維護支持不同位置的相關數據備份、在一個點癱瘓時能保證該數據同步、維護和運行這樣的體系并非易事。

數據庫組成部分在不同位置的分散對云計算很必要,這也是云計算產生的原因。更重要的是云體系結構具有不同于目前使用的關系型結構的屬性,在云體系結構里,關系不復存在,人們以群集形式看待數據。

有專家認為云計算對關系型數據庫的應用將產生巨大的影響,而絕大多數電子商務系統所使用的數據庫還是基于關系型的數據庫,隨著云計算的大量應用,勢必對電子商務數據庫的構建產生影響,進而影響整個電子商務技術的發展。

說明:云數據庫是適應云計算而產生的,云數據庫的發展方向是非關系型分布式數據庫。關系數據庫不適合用于云計算環境,并不是說關系數據庫不能用于

云計算環境。微軟的SQL Azure就是個例子,他目前不可能舍棄SQLServer的根基,必須SQL Azure還需兼容低版本數據庫,在關系型到非關系型數據庫過度階段搶占先機。

三、云數據庫實例分析

1、SQL Azure(æ??(r))

SQL Azure是由微軟SQL Server 2008為基底,建構在Windows Azure云操作系統之上,運行云計算 (Cloud Computing)的關系數據庫服務 (Database as a Service),是一種云存儲(Cloud Storage)的實現,提供網絡型的應用程序數據存儲的服務。SQL Azure服務具有高可用性和可伸縮性的特點,并且提供多租戶的服務。對于大多數開發者來說,它提供了熟悉的開發體驗,因為SQL Azure支持絕大部分的T-SQL DDL 和DML語句。2010年正式上線。

目前在使用Windows Azure的企業單位金蝶,PPTV亞洲電視網,凡客誠品,藍港在線,北京渲染平臺,蟲洞語音助手,經緯等等。

案例一:金蝶K/3 Cloud

云端托管降低客戶采購門檻,滿足中小企業對多工廠、跨地域、多分支協同的需求。

“金蝶K/3 ERP系統通過金蝶K/3 Cloud產品部署到微軟Azure云平臺,借助第三方開發力量來滿足公司個性化需求,為公司ERP系統快速上線提供了可行性解決方案,同時也有利于節約公司大量硬件和運營維護成本。”

背景

金蝶是亞太及中國領先的企業管理軟件供應商,其中小企業ERP軟件 K/3 Wise 在亞太市場表現出色,在中國 ERP 軟件中小企業市場占有率連續八年第一。 隨著中國制造業的轉型,云計算、移動互聯、社交網絡、電子商務等新技術的涌現,結合金蝶 100 萬家 ERP 客戶的最佳實踐,金蝶公司于2012年8月份正式推出新時代的新型 ERP:K/3 Cloud,這是是一款基于 WEB2.0 與云技術的一個開放式、社交化的新時代企業管理服務平臺,支持企業公有云模式部署。 借助云計算技術和 K/3 Cloud 產品,為客戶提供更安全更優質的企業管理服務,金蝶開始尋求公有云計算平臺的合作伙伴。

解決方案

在考慮過幾家國內外云計算平臺以后,金蝶選擇將 K/3 Cloud 部署至 Windows Azure 公有云計算平臺。

金蝶和微軟的合作,將K/3 Cloud 產品部署在微軟Windows Azure平臺上,實現共創共贏,為客戶提供更安全的ERP在線服務??蛻糁恍枰葱枰庥?,通過互聯網接入,就可以在線使用ERP產品功能。

優勢

(1)加快部署速度,降低門檻

在本地數據中心部署 ERP 軟件需要客戶自行購買、安裝并管理服務器和數據庫,整個過程可能長達數周。通過Windows Azure 平臺,客戶只需數小時便能開始在線使用 K/3 Cloud 軟件,吸引了大量之前擔心 IT 運維成本的小公司,金蝶用云計算等新技術創新,幫助中國企業迎接挑戰和機遇,讓IT應用方式、管理方式、商業模式重新想象,非常符合中小企業的需求。 (2)增強安全性

ERP 數據是企業管理費用經營成果,高度機密,金蝶對數據安全非常重視。Windows Azure 平臺技術源自微軟二十多年數據中心安全管理經驗,并且是 Office 365 商用辦公服務的基礎平臺,為金蝶 K/3 Cloud ERP 提供了可靠的安全保障。

(3)提供更可靠的服務 金蝶計劃為 K/3 Cloud 產品的客戶提供服務等級協議。這背后是 Windows Azure 出色的企業級服務等級協議(SLA),金蝶自身并不需要自己投入大量資源保證服務可用性。

(4)適應跨地域管理

隨著國內企業的不斷轉型和升級,它們對多工廠、跨地域、多分支以及協同需求越來越強。金蝶 K/3 Cloud能夠依托 Windows Azure 位于不同城市的數據中心,通過互聯網幫助企業遠程管理各分支的信息,實現企業業務、流程、數據的協同處理。

2、BigTable Bigtable是Google設計的一個分布式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分布在數千臺普通服務器上的PB級的數據。Bigtable已經在超過60個Google的產品和項目上得到了應用,包括Web索引(全球最大的搜索引擎)、Google Earth、Google Finance。這些應用對Bigtable提出的要求差異非常大,無論是在數據量上(從URL到網頁到衛星圖像)還是在響應速度上(從后端的批量處理到實時數據服務)。盡管應用需求差異很大,但是,針對Google的這些產品,Bigtable已經實現了下面的幾個目標:適用性廣泛、可擴展、高性能和高可用性。

案例二:Google Earth 谷歌地球(Google Earth,GE)是一款Google公司開發的虛擬地球儀軟件,它把衛星照片、航空照相和GIS布置在一個地球的三維模型上。Google Earth于2005年向全球推出,被《PC 世界雜志》評為2005年全球100種最佳新產品之一。用戶們可以通過一個下載到自己電腦上的客戶端軟件,免費瀏覽全球各地的高清晰度衛星圖片。

下圖就是谷歌地球的軟件截圖

(1)全世界的地理信息都觸手可及 踏上前往世界任何角落的虛擬之旅。瀏覽 3D 建筑、圖像和地形。查找城市、地點和本地商家。下圖是中南海全景圖。

(2)在 Google 地球中看火星

在“火星”圖層的“直播”中,查看幾小時前剛由 NASA 分享的圖片;或者查看 3D 漫游者模型,跟隨漫游者的足跡觀看高分辨率 360 度全景圖像。

(3)探索全新的 Google 地球和地圖圖庫

探索數以百計涵蓋世界各個角落的地圖,不論是歷史圖像,還是最新的高分辨率海底地形都沒有問題。

(4)新功能!Google 地球 7 提供 3D 圖像和游覽指南

以 3D 的形式遨游大都市上空,俯瞰全景,不需要飛行員駕照!全新的游覽指南可向您介紹各地著名的地標和自然景觀。下圖為尼加拉大瀑布。

數據庫特點:

1、適合大規模海量數據,PB級數據;

2、分布式、并發數據處理,效率極高;

3、易于擴展,支持動態伸縮;

4、適用于廉價設備;

5、適合于讀操作,不適合寫操作。

6、不適用于傳統關系型數據庫;

3、Amazon SimpleDB Amazon公司的SimpleDB是建立在Amazon EC2(利用啟動虛擬機)和S3(索引存儲桶)之上的用來存儲結構化數據的云計算服務。

如果要使用SimpleDB,必須使用Amazon Web Services (AWS)。

SimpleDB是有目的或已經進軍海外市場的企業或單位。例如獵豹移動,OPPO,豌豆莢,天獅集團,上??v游等。

案例三:獵豹移動

獵豹移動公司(Cheetah Mobile,以下簡稱獵豹),原金山網絡,成立于2010年10月,是全球最大的移動工具開發商、中國第二大互聯網及移動互聯網安全公司,致力于為全球用戶提供快捷、簡單、安全的互聯網及移動上網體驗。截至2014年3月,獵豹的全球月度活躍用戶超過3.62億,公司旗下有四款產品:獵豹清理大師(Clean Master)、金山電池醫生、CM Security及Photo Grid。公司推出的獵豹清理大師(Clean Master)月活躍用戶數超過1.4億,在全球50多個國家Google Play工具排行榜中位列第一。 作為一家創業型公司,獵豹抓住了海外市場發展的機會,并確立下全球化的發展戰略,因此能否迅速在海外市場部署業務,提升產品的用戶體驗便成了關鍵。此外,能否對數以億計用戶的行為進行大數據分析,及時調整獵豹產品的運營以滿足不同海外市場的需求也是贏得海外市場的重要因素

為什么選用亞馬遜

首先AWS的業務是覆蓋全球的,這與獵豹的全球化需求相契合;

其次AWS各項服務的可靠性高,對于獵豹來說無論是偶爾出現的突發性流量增長,還是中長期的業務發展需求,都能得到滿足; 再次,AWS的品牌也得到了獵豹團隊的認可和信任。

AWS是全球云服務的先鋒,廣泛的服務和雄厚的經驗可以幫助我們迅速提供業務所需的IT系統能力。”

獵豹移動公司運維總監胡凱指出:“而且我們自己的技術人員在過渡到AWS時也非常順利,通過AWS開放的API和各種工具,我們各項業務的推進非常順利。” 在云數據庫方便亞馬遜做的相當出色,數據庫Amazon SimpleDB 可自動管理基礎設施預配置、硬件和軟件維護、數據項目復制和索引,以及性能優化。Amazon SimpleDB 為您存儲的每個數據項目自動創建分布在多個地理位置的副本。這可提供高可用性和持久性 – 即使出現罕見的副本故障,Amazon SimpleDB 也能將故障轉移到系統中的另一副本。Amazon SimpleDB 的設計可以和 Amazon S3 及 EC2 等其他 AWS 服務輕松集成,為創建 Web 規模的應用程序提供基礎設施。數據庫簡單易用,安全并且廉價。

云計算由美國興起,最終讓亞馬遜和谷歌搶占了先機,成為了世界范圍內云計算領域的巨頭,甚至在未來的數十年內,整個云計算領域都要以他們馬首是瞻,那么,誰能笑傲中國的云計算市場?

目前最火的就是百度云和阿里云。他們與國際大公司有所不同,他們不想亞馬遜和谷歌,微軟,研發自己的操作系統,自己的數據庫系統,用戶申請他們的云平臺,系統及平臺都是他們自己公司研發的,只支持他們自己的軟件系統。百度云和阿里云他們只是搭建云平臺,供用戶申請使用,云平臺系統及數據庫有多種,用戶可以根據自己的需要申請不同類型。他們研發自己云技術,搭建的云平臺軟件是購買這些大公司的。

兩次的報告,已經講了云數據庫的基礎知識,云數據庫的經典案例。

下一次報告主要是對云數據庫對相關專業及人才培養的影響及發展東西進行分析。

上一篇:第五屆魯迅文學獎范文下一篇:人事經理試用期總結范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火