<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

騰訊大數據報告范文

2023-10-16

騰訊大數據報告范文第1篇

流形學習方法作為一類新興的非線性維數約簡方法,主要目標是獲取高維觀測數據的低維緊致表示,探索事物的內在規律和本征結構,已經成為數據挖掘、模式識別和機器學習等領域的研究熱點。流形學習方法的非線性本質、幾何直觀性和計算可行性,使得它在許多標準的 toy 數據集和實際數據集上都取得了令人滿意的結果,然而它們本身還存在著一些普遍性的問題,比如泛化學習問題、監督學習問題和大規模流形學習問題等。因此,本文從流形學習方法存在的問題出發,在算法設計和應用(圖像數據與蛋白質相互作用數據)等方面展開了一系列研究工作。首先對流形學習的典型方法做了詳細對比分析,然后針對流形的泛化學習和監督學習、表征流形的局部幾何結構、構造全局的正則化線性回歸模型、大規模數據的流形學習等幾個方面進行了重點研究,提出了三種有效的流形學習算法,并和相關研究成果進行了理論與實驗上的比較,從而驗證了我們所提算法的有效性。

關鍵詞:流形學習,維數約簡,正交局部樣條判別投影,局部多尺度回歸嵌入

I

目錄

目錄 ................................................................................................................................................. II 第1章 研究背景 ....................................................................................................................... 1

1.1 流形學習的研究背景 ................................................................................................... 1 1.2 流形學習的研究現狀 ................................................................................................... 2 1.3 流形學習的應用 ........................................................................................................... 4 第2章 流形學習方法綜述 ....................................................................................................... 5

2.1 流形學習方法介紹 ....................................................................................................... 6 第3章 流形學習方法存在的問題 ........................................................................................... 9

3.1 本征維數估計 ............................................................................................................... 9 3.2 近鄰數選擇 ................................................................................................................. 10 3.3 噪聲流形學習 ............................................................................................................. 10 3.4 監督流形學習 ............................................................................................................. 11 第4章 總結 ............................................................................................................................. 11

II

第1章 研究背景

1.1 流形學習的研究背景

隨著信息時代的到來,使得數據集更新更快、數據維度更高以及非結構化性等問題更突出。在科研研究的過程中不可避免地遇到大量的高維數據,這就需要一種技術能夠使在保持數據信息足夠完整的意義下從海量數據集中提取出有效而又合理的約簡數據,滿足人的存儲需求和感知需要。流形學習這一非監督學習方法應運而生,引起越來越多機器學習和認知科學工作者的重視。而在海量的高維數據中,往往只有少量的有用信息,如果想快速高效的搜集到人們想要的、有用的那些少量信息且快速的處理信息,這就需要一些關鍵技術的支持,即是必須采用相應的降維技術。而流形學習正是在數據降維方面有著重要的貢獻。然而,降維的過程與《矩陣分析》中的內容有著密切的關系。

基于流形的降維方法能充分利用數據中所隱藏的低維有價值信息,進一步提高檢索性能。Seung從神經心理學的角度提出“感知以流形的形式存在,視覺記憶也可能是以穩態的流形存儲”,為流形提供了與人類認識相關的理由。流形學習的方法主要有主成分分析(PCA)、多維尺度化(MDS)、基于局部切空間排列法(LTSA)和基于等度規映射(ISOMAP)、局部線性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形學習方法在人臉識別、圖像處理、模式識別、計算機視覺、認知科學、人工智能、人機交互等眾多學科中有著廣泛的應用。

線性維數約簡方法是通過在高維輸入空間與低維子空間之間建立線性映射關系,把高維數據樣本集投影到低維線性子空間。線性維數約簡技術通常假設數據集采樣于一個全局線性的高維觀測空間。如果所要處理的數據集分布確實呈現出全局線性的結構,或者在一定程度上可以近似為全局線性結構,則這些方法能夠有效地挖掘出數據集內在的線性結構,獲得數據緊致的低維表示。在線性維數約簡方法中,使用最廣泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002; Turk and Pentland, 1991)

1 和線性判別分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根據高維數據在低維空間重構誤差最小的原則,來尋找一組最優的單位正交向量基(即主分量),并通過保留數據分布方差較大的若干主分量來達到降維的目的。然而,眾所周知,由于 PCA 算法沒有利用數據樣本的類別信息,所以它是一種非監督的線性維數約簡方法。與 PCA 算法不同,LDA 算法考慮到樣本的類別信息,它是一種有監督的方法?;诟黝悩颖痉母咚狗植记也煌惖膮f方差矩陣相同的假設,LDA 算法在 Fisher 準則下選擇最優的投影向量,以使得數據樣本的類間散度最大而類內散度最小。由于 LDA 算法利用了樣本的類別信息,而樣本的類別信息通常有助于改善識別率,因此 LDA 算法更適用于分類問題。

1.2 流形學習的研究現狀

流形學習假定輸入數據是嵌入在高維觀測空間的低維流形上,流形學習方法的目的是找出高維數據中所隱藏的低維流形結構。經過十多年的研究與探索,人們提出了大量的流形學習理論與算法。經典的流形學習方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部線性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002; Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差異展開算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005; Weinberger and Saul, 2004; Weinberger and Saul, 2006; Weinberger et al., 2004)、局部切空間排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形學習算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007; Lin et al., 2006)和局部樣條嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006; Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多維尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非線性推廣,其核心思想是用測地距離代替歐氏距離來表征流形上數據點的內在幾何關系。對于樣本

2 點和它的近鄰點之間的測地距離用它們之間的歐氏距離來代替;對于樣本點和近鄰點之外的點之間的測地距離用它們之間的最短路徑來代替。Bernstein 等人證明了只要樣本是隨機抽取的,在樣本集足夠大且選擇適當近鄰參數k 時,近鄰圖上兩點的最短路徑可以逼近它們的測地距離(Bernstein et al., 2000)。當應用于內蘊平坦的凸流形時,ISOMAP 算法能夠忠實地捕獲數據內在的低維流形結構(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺點在于:① 對樣本點的噪聲比較敏感;② 對于具有較大曲率或稀疏采樣的數據集,不能發現其內在的本征結構;③ 需要計算全體數據集的測地距離矩陣,因此算法的時間復雜度較高。圍繞 ISOMAP算法,已經出現了許多相關的理論分析與研究工作。

Balasubramanian 等人對ISOMAP 算法的拓撲穩定性進行了深入探討 (Balasubramanian and Schwartz, 2002)。對于數據分布所在的低維流形具有較大的內在曲率情況,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。為了減小 ISOMAP 算法的計算復雜度,de Silva 和 Tenenbaum提出了帶標記的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

針對 ISOMAP 算法對于數據集噪聲敏感的問題,Choi 等人通過觀察圖中的網絡流提出了一種消除臨界孤立點的方法以加強 ISOMAP 算法的拓撲穩定性(Choi and Choi, 2007)。在構建近鄰圖方面,Yang 提出通過構造k 連通圖方式來確保近鄰圖的連通性,以提高測地距離的估計精度(Yang, 2005)。

2009 年,Xiang 等人提出了局部樣條嵌入算法(LSE)(Xiang et al., 2006; Xiang et al., 2008)。Xiang 認為,對于嵌入在高維輸入空間的低維流形,非線性維數約簡的任務實際上是尋找一組非線性的復合映射,即由局部坐標映射(Local Coordinatization Mapping)與全局排列映射(Global Alignment Mapping)復合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通過主分量分析計算每個樣本點局部鄰域在切空間上的投影獲得該鄰域所有樣本的局部坐標,從而保持流形的局部幾何結構信息;然后采用Sobolev 空間的一組樣條函數把每個樣本點的局部坐標映射成

3 全局唯一的低維坐標。它們均是利用每個樣本的局部切空間來捕獲流形的局部幾何,樣本點在切空間的投影來表示樣本點的局部坐標。然而它們的主要區別在于全局排列,LTSA 算法是利用仿射變換來進行全局排列,而 LSE 算法是利用樣條函數來獲得全局唯一的坐標。因此相對于 LTSA 而言,LSE 算法能夠實現更小的重構誤差。LSE 算法的主要缺點在于:一是無法保持全局尺度信息;二是不能學習具有較大曲率的低維流形結構。除此,如何選擇滿足要求的樣條函數也是一個值得考慮的問題。

不同流形學習算法的區別在于所嘗試保持流形的局部鄰域結構信息以及利用這些信息構造全局嵌入的方法不同,與以往的維數約簡方法相比,流形學習能夠有效地探索非線性流形分布數據的內在規律與性質。但是在實際應用中流形學習方法仍然存在一些缺點,比如本征維數估計問題、樣本外點學習問題、監督流形學習問題和噪聲流形學習問題等。為了解決這些問題,相關的算法也不斷涌現出來。Freedman 等提出了一種基于簡化單純復形的流形重構方法來自動估計流形的本征維數(Freedman, 2002)。

為了解決樣本外點學習問題,研究人員分別在流形學習的線性化、核化和張量化等方面作了有益的探索(Yan et al., 2007)。Geng 等將樣本的類別信息融入到 ISOMAP 算法,提出了一種用于可視化和分類的有監督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一種基于局部線性平滑的流形學習消噪模型(Zhang and Zha, 2003)。這些方法的提出在一定程度上緩解了目前流形學習方法中存在的一些問題,但是還需要進一步充實和完善。

1.3 流形學習的應用

目前,流形學習方法的應用可歸納為以下幾個方面:

1) 數據的可視化。流形學習方法在高維數據的可視化方面有了廣泛的應用。人不能直接感知高維數據的內部結構,但對三維以下數據的內在結構卻有很強的感知能力。由于流形學習方法可以發現高維觀測數據中蘊含的內在規律和本征結構,而且這種規律在本質上不依賴于我們實際觀測到的數據維數。因此我們可以通過流形學習方法

4 對高維輸入數據進行維數約簡,使高維數據的內部關系和結構在低于三維的空間中展示出來,從而使人們能夠直觀地認識和了解高維的非線性數據的內在規律,達到可視化的目的。

2) 信息檢索。隨著多媒體和網絡技術的迅猛發展,圖像和文本信息的應用日益廣泛,對規模逐漸龐大的圖像和文本數據庫如何進行有效的管理已成為亟待解決的問題。靈活、高效、準確的信息檢索策略是解決這一問題的關鍵技術之一。這些圖像和文本信息呈現出高維、大規模、非線性結構,利用流形學習方法來處理這些信息,在大大降低時間和空間計算復雜度的同時,能夠有效地保留這些信息在原始高維空間的相似性。

3) 圖像處理。流形學習給圖像處理領域提供了一個強有力的工具。眾所周知,圖像處理與圖像中物體的輪廓以及骨架等密切相關。如果我們把圖像中物體的輪廓以及骨架等看成是嵌入在二維平面中的一維流形或者由一組一維流形構成,那么顯然流形學習方法憑借其強大的流形逼近能力可以應用于圖像處理領域。

第2章 流形學習方法綜述

流形學習方法作為一種新興的非線性維數約簡方法,主要目標是獲取高維觀測數據的低維緊致表示,探索事物的內在規律和本征結構,已經成為數據挖掘、模式識別和機器學習等領域的研究熱點。本章首先探討了流形學習的基礎性問題,即高維數據分析的流形建模問題;然后依據保持流形幾何特性的不同,把現有的流形學習方法劃分為全局特性保持方法和局部特性保持方法,并介紹了每一類方法中有代表性的流形學習算法的基本原理,對各種流形學習算法進行性能比較和可視化分析,最后就流形學習方法普遍存在的本征維數估計、近鄰數選擇、噪聲流形學習、樣本外點學習和監督流形學習問題等進行了分析和討論。

5 2.1 流形學習方法介紹

流形學習的定義:流形是局部具有歐氏空間性質的空間。假設數據是均勻采樣于一個高維歐氏空間中的低維流形,流形學習就是從高維采樣數據中恢復低維流形結構,即找到高維空間中的低維流形,并求出相應的嵌入映射,以實現維數約簡或者數據可視化。它是從觀測到的現象中去尋找事物的本質,找到產生數據的內在規律。

流形學習用數學語言描述是:令Y??yi?且?: Y??是一個光滑的嵌套,其中D >> d。那么流形學習的目標是基于?上的一個給定被觀測數據集合?xi?去恢復Y與? ,也就是在Y 中隨機產生隱藏的數據?yi?,然后通過? 映射到觀測空間,使得?xi?f?yi??。

從流形學習的定義中可以看出,這是一個把數據從高維映射到低維的過程,用到了線性變換,當然少不了矩陣的分解及其基本運算。 2.1.1 多維尺度分析(Multidimensional Scaling, MDS)

多維尺度分析(Multidimensional Scaling, MDS)是一種經典的線性降維方法,其主要思想是:根據數據點間的歐氏距離,構造關系矩陣,為了盡可能地保持每對觀測數據點間的歐氏距離,只需對此關系矩陣進行特征分解,從而獲得每個數據在低維空間中的低維坐標。

DDDx??x設給定的高維觀測數據點集為Y??U,i,觀測數據點對i,

Tyj間的歐氏距離為?ij?xi?yj,傳統MDS 的算法步驟如下:

a) 首先根據求出的兩點之間的歐氏距離

?ij構造n階平方歐式距離矩陣A???ij2? n?n。

6 b) 將矩陣A進行雙中心化計算,即計算

B??1HAH2(其中H 為中心化eeTH?I?n,將矩陣H左乘和右乘時稱為雙中心化)矩陣,。

c) 計算低維坐標Y。即將B奇異值分解,設B的最大的d個特征值??diag??1,?2,...,?d?Y??UT。

?u1,u2,...,ud??則d維低維坐標為,對應特征向量,U??雖然作為線性方法,MDS在流形學習中不能有效發現內在低維結構。但是從這一基本的算法中我們可以清楚的看出矩陣分析在流形學習研究中的應用。在這個MDS算法中,運用到了矩陣中的線性空間變換、矩陣特征值和特征向量的計算、矩陣的中心化計算、矩陣的奇異值的分解等相關知識點。想象一下,如果沒有這些知識點做基礎,這些算法如何進行。 2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多維尺度分析(MDS)基礎上的一種非線性維數約簡方法。ISOMAP算法利用所有樣本點對之間的測地距離矩陣來代替MDS算法中的歐氏距離矩陣,以保持嵌入在高維觀測空間中內在低維流形的全局幾何特性。算法的關鍵是計算每個樣本點與所有其它樣本點之間的測地距離。對于近鄰點,利用輸入空間的歐氏距離直接得到其測地距離;對于非近鄰點,利用近鄰圖上兩點之間的最短路徑近似測地距離。然后對于構造的全局測地距離矩陣,利用MDS算法在高維輸入空間與低維嵌入空間之間建立等距映射,從而發現嵌入在高維空間的內在低維表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>構造近鄰圖G

<2>計算最短路徑

<3>計算 d 維嵌入 (3)算法分析

7 ISOMAP算法是一種保持全局幾何特性的方法,它的低維嵌入結果能夠反映出高維觀測樣本所在流形上的測地距離。如果高維觀測樣本所在的低維流形與歐氏空間的一個子集是整體等距的,且與樣本所在流形等距的歐氏空間的子集是一個凸集,那么ISOMAP算法能夠取得比較理想的嵌入結果。但是當流形曲率較大或者流形上有“孔洞”,即與流形等距的歐氏空間的子集非凸時,流形上的測地距離估計會產生較大的誤差,導致嵌入結果產生變形。

從算法的時間復雜度來看,ISOMAP算法有兩個計算瓶頸(De Silva and Tenenbaum, 2003)。第一個是計算n×n 的最短路徑距離矩陣DG。當使用Floyd算法時,計算復雜度為O(n3) ;若采用Dijkstra算法,可將計算復雜度降低到O(kn2log n) ( k 為近鄰數大小)(Cormen, 2001)。第二個計算瓶頸源于應用MDS時的特征分解。由于距離矩陣是稠密的,所以特征分解的計算復雜度為O(n3) 。從中我們可以看出,隨著樣本個數n 的增大,ISOMAP算法計算效率低下的問題會變得十分突出。 2.1.3局部線性嵌入(LLE)

1、基本思想

與ISOMAP和MVU算法不同,局部線性嵌入算法(LLE)是一種局部特性保持方法。LLE算法的核心是保持降維前后近鄰之間的局部線性結構不變。算法的主要思想是假定每個數據點與它的近鄰點位于流形的一個線性或近似線性的局部鄰域,在該鄰域中的數據點可以由其近鄰點來線性表示,重建低維流形時,相應的內在低維空間中的數據點保持相同的局部近鄰關系,即低維流形空間的每個數據點用其近鄰點線性表示的權重與它們在高維觀測空間中的線性表示權重相同,而各個局部鄰域之間的相互重疊部分則描述了由局部線性到全局非線性的排列信息(Roweis and Saul, 2000)。這樣就可以把高維輸入數據映射到全局唯一的低維坐標系統。

2、算法流程

LLE算法的基本步驟分為三步: (1) 選擇鄰域

8 (2) 計算重構權值矩陣W (3) 求低維嵌入Y

3、算法分析

通過前面算法描述我們不難發現,LLE算法可以學習任意維具有局部線性結構的低維流形。它以重構權值矩陣作為高維觀測空間與低維嵌入空間之間聯系的橋梁,使得數據點與其近鄰點在平移、旋轉和縮放等變化下保持近鄰關系不變。而且LLE算法具有解析的全局最優解,無需迭代。在算法的計算復雜度上,選擇鄰域的計算復雜度為O(Dn2) ,計算重構權值矩陣的計算復雜度為O((D+k)k2n) ,求解低維嵌入Y 的計算復雜度為O(dn2) 。因此與ISOMAP和MVU算法相比,LLE算法的計算復雜度要小得多。

但LLE算法也存在一些缺點:① 由于LLE算法只是保持局部近鄰的重構權值關系,并不是保持距離關系,因此,LLE算法通常不能很好的恢復出具有等距性質的流形。② LLE算法希望樣本集均勻稠密采樣于低維流形,因此,對于受噪聲污染、樣本密度稀疏或相互關聯較弱的數據集,在從高維觀測空間到低維嵌入空間的映射過程中,可能會將相互關聯較弱的遠點映射到局部近鄰點的位置,從而破壞了低維嵌入結果。

第3章 流形學習方法存在的問題

流形學習相對于傳統的線性維數約簡方法來說,它能夠更好地發現高維復雜非線性數據內在的幾何結構與規律。但其各種算法本身還存在著一些普遍性的問題,比如本征維數估計問題、近鄰數選擇問題、噪聲流形學習問題、泛化學習問題和監督學習問題等。本小節將對這些問題進行簡要的分析和討論。

3.1 本征維數估計

本征維數估計是流形學習的一個基本問題(趙連偉 et al., 2005)。本征維數一般被定義為描述數據集中所有數據所需要的自由參數(或獨立坐標)的最小數目。它反映了隱藏在高維觀測數據中潛在低維流形的拓撲屬性。在非

9 線性維數約簡過程中,本征維數估計的準確與否對低維空間的嵌入結果有著重要的影響。如果本征維數估計過大,將會保留數據的冗余信息,使嵌入結果中含有噪聲;相反如果本征維數估計過小,將會丟失數據的有用信息,導致高維空間中不同的點在低維空間可能會交疊。因此,設計穩定可靠的本征維數估計方法將有助于流形學習算法的應用和性能的改善。

目前現有的本征維數估計方法大致分為兩大類:特征映射法和幾何學習法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998; Fukunaga and Olsen, 1971)和多維尺度分析方法(Cox and Cox, 2000),它主要利用了數據分布的本征特征是數據的局部特征的基本思想,對局部數據進行特征分解,選取對應特征值最大的特征向量作為本征特征。顯然,這類方法所估計的本征維數大小在很大程度上取決于數據的局部鄰域劃分和閾值的選擇,因此特征映射方法不能提供本征維數的可靠估計。幾何學習法主要基于最近鄰距離(Nearest Neighbor Distances)或分形維(Fractal Dimension)(Camastra, 2003)來探索數據集所蘊含的幾何信息,這類方法通常需要充足的樣本數,因此,對于樣本數少、觀測空間維數較高的情況,經常會出現本征維數欠估計的情況。

3.2 近鄰數選擇

流形學習探測低維流形結構成功與否在很大程度上取決于近鄰數的選擇(Zeng, 2008),然而在構造近鄰圖時如何選擇一個合適的近鄰數是一個公開的問題。如果近鄰數選擇過大,將會產生“短路邊”現象(“short-circuit” edges),從而嚴重破壞原始流形數據的拓撲連通性。

3.3 噪聲流形學習

當觀測數據均勻稠密采樣于一個理想的低維光滑流形時,流形學習方法可以成功地挖掘出其內在的低維結構和本質規律。但是在實際應用中,我們經常發現高維采樣數據由于受各種因素的影響,一般總是存在著噪聲和污染,這將勢必影響流形學習算法的低維嵌入結果。

10 3.4 監督流形學習

現有的流形學習方法多數用于無監督學習情況,如解決降維與數據可視化等問題。當已知數據的類別信息,如何利用這些信息有效地改進原始流形學習算法的分類識別能力是監督流形學習所要解決的問題。從數據分類的角度來看,人們希望高維觀測數據經過維數約簡后在低維空間中類內差異小而類間差異大,從而有利于樣本的分類識別。原始的流形學習算法都是無監督學習過程,一些引進監督信息的改進算法紛紛被提出來(Li et al., 2009; Zhao et al., 2006)。這些方法的基本思想是利用樣本的類別信息指導構建有監督的近鄰圖,然后利用流形學習方法進行低維嵌入。盡管這些方法能夠獲得較好的分類結果,但是這種通過類別屬性構建的近鄰圖往往會被分割成多個互不相連的子圖,而不是一個完整的近鄰圖,這就給原始流形學習算法的最終應用帶來了很大的不便。

第4章 總結

流形學習是一個具有基礎性、前瞻性的研究方向,其研究成果和技術已經立即應用于模式識別、計算機視覺、圖像處理等相關領域。如高維數據的可視化、可聽化;基于內容檢索的模型;視頻中三維對象的跟蹤和檢測;從靜態二維圖像中進行三維對象的姿態估計和識別;二維和三維對象的形狀重構;從運動中構建結構、從陰影中成形等。此外流形學習還應用于自然語言處理、基因表達分析等生物信息處理領域,特別是在基因表達分析中,用于檢測和區分不同的疾病和疾病類型。

盡管流形學習的算法和應用在過去的幾年中已經取得了豐碩的成果,但是由于其數學理論基礎較為深厚復雜,以及多個學科之間交叉融合,所以仍有許多亟需研究和解決的問題,尤其在下述幾個方面:

1.目前已有很多流形學習算法,但很多算法只是建立在實驗的基礎之上,并沒有充分理論基礎支持,所以我們一方面要進一步探索能夠有效學習到流形局部幾何和拓撲結構的算法,提高流形投影算法的性能,另外更重要的是要不斷完善理論基礎。

11

2.各支幾何都是研究空間在變換群下的不變性,微分幾何亦是如此。而很多情況下我們正需要這種不變性,所以研究局部樣本密度、噪聲水平、流形的正則性、局部曲率、撓率結構的交互作用對流形學習的研究有積極促進作用。

3.統計學習理論得到充分發展并逐漸成熟,流形學習理論在其基礎上發展自然可以把統計學中有用的技術應用于流形學習中,如流形上的取樣和Monte Carlo估計、假設檢驗,以及流形上關于不變測度的概率分布密度問題,都值得進一步研究。

4.目前大部分學習算法都是基于局部的,而基于局部算法一個很大缺陷就在于受噪聲影響較大,所以要研究減小局部方法對于噪聲和離群值的影響,提高學習算法魯棒性及泛化能力。

5. 譜方法對噪聲十分敏感。希望大家自己做做實驗體會一下,流形學習中譜方法的脆弱。

6.采樣問題對結果的影響。

7. 一個最尷尬的事情莫過于,如果用來做識別,流形學習線性化的方法比原來非線性的方法效果要好得多,如果用原始方法做識別,那個效果叫一個差。也正因為此,使很多人對流形學習產生了懷疑。

8. 把偏微分幾何方法引入到流形學習中來是一個很有希望的方向。這樣的工作在最近一年已經有出現的跡象。

參考文獻

[1] R. Basri and D. W. Jacobs. Lambertian reflectance and linear subspaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003. [2] R. Vidal. Subspace clustering. IEEE Signal Processing Magazine, 28(2):52–68, 2011. [3] J. Shi and J. Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000. [4] G. Liu, Z. Lin, S. Yan, J. Sun, Y. Yu, and Y. Ma. Robust recovery of subspace structures by low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013. [5] E. Elhamifar and R. Vidal. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781,

12 2013. [6] Y. Wang, Y. Jiang, Y. Wu, and Z. Zhou. Spectral clustering on multiple manifolds. IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011. [7] B. Cheng, G. Liu, J. Wang, Z. Huang, and S. Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011. [8] C. Lang, G. Liu, J. Yu, and S. Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.

騰訊大數據報告范文第2篇

——員工關系管理案例分析

1.公司簡介

騰訊公司成立于1998年11月,是目前中國最大的互聯網綜合服務提供商之一,也是中國服務用戶最多的互聯網企業之一。成立十年多以來,騰訊一直秉承一切以用戶價值為依歸的經營理念,始終處于穩健、高速發展的狀態。目前公司主要產品有IM軟件、網絡游戲、門戶網站以及相關增值產品。

2.案例陳述

11月10日消息,繼珊瑚蟲QQ案后,騰訊的又一樁訴訟引起了社會的關注。11月6日,“騰迅QQ把員工告上法庭,兩年內不許踏足互聯網”的帖子在各大論壇不脛而走,帖子披露一批技術人員遭到了騰訊的集體起訴。隨后騰訊官方也證實了案件正進入司法程序,并將于12月26日首次開庭。

與競業禁止相關的案例最近幾年在國內也是屢見不鮮。2007年3月,深圳市南山區法院就原金蝶公司員工廖建華違背保密與競業限制協議一案作出宣判,判決廖建華繼續履行保密及競業限制義務,離職后一年內不得在與金蝶存在商業競爭關系的用人單位工作,并應支付違約金。而現任google中國區的總裁李開復(博客)從微軟跳槽到Google后,微軟公司也曾將李本人和Google公司訴上法庭,后三方私下達成和解。

對被訴員工來說,老東家的起訴讓其感到無比的憤慨,同時面對強大東家的訴訟,心理難免憂心忡忡;對于騰訊公司而言,“這些跳槽員工把大量的技術和商業機密帶到競爭對手”,長此以往將給其帶來了難以挽回的損失;對于“挖角公司”而言,享受偷襲得手快感的同時,如何給跳槽員工善后也將是一個難題。

三個主角,一出好戲,正在精彩的上演„„

15名員工遭遇集體起訴

11月5日,對于剛從騰訊離職的“回頭是丫”(網名)來說,并不是一個好的日子。村里年邁的父母急促的電話,讓“回頭是丫”從另覓得高就的喜悅中驚醒過來。他被告知已被昔日的東家騰訊公司告上了法庭,令其更難以接受的是,法院的傳票讓村里的親人遭到了莫大的恐慌,“希望就這樣突然之間天崩地裂了,一輩子沒見過傳票的鄉親們都在傳說我在外面犯了法”。

根據傳票的內容,騰訊公司已正式向深圳福田法院起訴“回頭是丫”,原因是其跳槽新東家后違反了入職時簽訂的競業禁止條款。

“回頭是丫”在其在天涯發布的貼中回憶稱,在畢業后加入騰訊時確實簽了勞動合同,合同中也有競業禁止的約定:“雙方勞動合同第7頁約定:乙方無論因何種原因離職,自離職之日起2年內不得在研究、生產、銷售或維護甲方經營范圍的同類產品與服務(包括即時通信軟件產品、通信聊天交友服務、移動通信增值服務、網絡電子游戲、網絡娛樂、互聯網信息資訊、其他網絡產品、其他通信產品、其他軟件產品等)的企業事業單位或與甲方有競爭關系的企業事業單位工作,也不得以任何方式直接間接地為這些企業事業單位工作或提供服務。”

后來“回頭是丫”發現,不光是他自己收到了騰訊公司的傳票,其他一些從騰訊跳槽到競爭對手的技術人員也遭遇到騰訊公司的起訴。據騰訊公司公布的數據,此番訴訟包括“回

頭是丫”在內共有15名跳槽員工。

讓“回頭是丫”納悶的是,從騰訊離職跳槽的員工不下數百上千,為何唯獨對他們15人進行了起訴。此外,對于騰訊公司聲明表述的已經支付競業禁止的賠償,他自己并沒有享受到相應的“福利”。

企鵝為什么“咬人”?

對于離職員工競業禁止賠償的質疑,騰訊方面給予的解釋是公司勞動合同中已文明規定了的賠償條款,“員工在職期間,每個月工資中的200元視為公司給予員工的競業補償費用”。

在集體訴訟案被曝光后,騰訊公司隨即就發表聲明表示:“這些跳槽員工帶走大量的技術和商業機密,到新公司后依然毫無顧忌的從事與其在騰訊完全類似的工作,給騰訊公司正常的經營活動造成了極大困擾。騰訊不得不采取法律行動,保護公司和員工的合法權益。”

內部知情人士向網易科技透露,該訴訟實際上并非單純的競業禁止,其背后還隱藏了長期競爭對手從騰訊挖角的難題。

該知情人士援引騰訊內部員工的話說,從去年以來,有家還未上市的互聯網公司就開始從騰訊大肆挖人,從中層干部到普通員工,只要能找到聯系方式的,都會通過獵頭大面積的電話聯系,有些核心的研發部門,甚至整個部門都接到過類似電話,動輒就許以高于目前2-3倍的薪酬以及未來上市后可兌現的期權。另據消息人士透露,騰訊最近相繼有近百名員工跳槽到幾家與騰訊有競爭關系的互聯網企業,騰訊希望通過集體訴訟的辦法來警示內部員工,防止更多“集體跳槽”事件發生。

該消息得到了騰訊公關部相關負責人的證實,“最近一段時間,某些公司為了謀求便捷發展,不斷對騰訊員工進行惡意挖角,導致了騰訊所投入巨資的一些研發項目擱淺、商業機密流失。”

據該負責人透露,每個進入騰訊的員工都可能接觸到不同類型的商業機密,所以公司的競業禁止條款對每個員工都是適用的。“但是公司相信每一位同事都具有正直盡責合作創新的騰訊價值觀,不會做傷害公司和同事利益的事情,雖然條款在,但我們盡可能不動用這樣的條款。”

幕后挖角公司浮現?

在各界紛紛猜測該訴訟終究會以何種方式告終的同時,大家關注的重心是哪家“未上市的互聯網公司”對騰訊進行了集體挖角?

業內專家向網易科技分析表示,國內互聯網行業未上市又能讓馬化騰老羞成怒的對手并不多,一些新興的SNS社區與騰訊的用戶重疊度較高,而規模較大的只有校內網和51.com。

不久前的互聯網大會上,51.com CEO龐升東在接受網易科技專訪時表示,從市場區別來看,51跟騰訊的用戶的重聯度比較高,而過年前后將推出的棋牌類休閑游戲,騰訊也是主要的對手。“所以騰訊無論現在和未來都是51的最大競爭對手”。

“的確近期有十多名騰訊的員工跳槽到我們公司,其中已經有數名接到法院的傳票”

51.com 副總裁黃紹麟(博客)接受網易科技調查時透露,不過他很快就否認了51.com存在惡意挖角騰訊的意圖,“這些員工都是自發到51.com來發展的,我們沒有任何故意的行為。騰訊也有很多的員工跳槽到百度和迅雷,不光是51.com”。

此外黃紹麟還表示,他至今還沒了解到這些新來的技術員工詳細情況,“這些都是一些很基層的技術員工,不可能接觸到什么核心的商業機密”。

黃紹麟承認,騰訊的訴訟已經影響到了剛跳槽到51.com的工作狀態,目前最重要的事情是安撫他們的心情。“我們希望按正規的程序來處理相關的訴訟,不過跳槽過來的員工職務安排情況不會受到訴訟影響。”

3.焦點問題分析

一、競業限制補償的問題。

騰訊的前員工在文章中提到,其從騰迅離職至今,該公司從來沒有提起過給其競業限制補償。這個說法的法律依據是勞動合同法第23條的規定:對負有保密義務的勞動者,用人單位可以在勞動合同或者保密協議中與勞動者約定競業限制條款,并約定在解除或者終止勞動合同后,在競業限制期限內按月給予勞動者經濟補償。也就是說,如果單位沒有履行競業限制補償的義務,員工也就解除了合同約定的競業限制義務。

對照開的內容:“員工在職期間,每個月工資中的200元,視為公司給予員工的競業補償費用。”這種約定本身就與廣東省技術秘密保護條例相矛盾不具有法律效力。作為競業限制補償應當是在員工與公司解除勞動關系之后,在競業限制期間用人單位逐月支付的補償費用。用人單位在員工在職期間支付這筆費用本身就不具有競業限制費的性質,這筆費用實質上應當屬于騰訊公司給予員工的保密費。

如果確認騰訊公司在相關協議中約定競業限制費在員工在職期間支付,那么首先要考慮兩個條件:

(一)員工在職期間的工資應當與本行業員工的工資相同,而不能任意的將工資中的一部分作為競業限制費來支付。

(二)根據《深圳經濟特區企業技術秘密保護條例》第十七條競業限制協議約定的補償費按年計算不得少于該員工離開企業前最后一個從該企業獲得的報酬總額的三分之二。只有將上述兩項費用合二為一在在職期間支付,才能認可雙方約定競業限制補償費在工作期間支付的效力。

二、競業限制的范圍問題。

根據該員工的文章,其與騰訊公司的勞動合同中確實有競業禁止的約定,條款是這樣說的:員工無論因何種原因離職,自離職之日起2年內不得在研究、生產、銷售或維護甲方經營范圍的同類產品與服務(包括即時通信軟件 產品、通信聊天交友服務、移動通信增值服務、網絡電子游戲、網絡娛樂、互聯網信息資訊、其他網絡產品、其他通信產品、其他軟件產品等)的企業事業單位或與騰訊公司有競爭關系的企業事業單位工作,也不得以任何方式直接間接地為這些企業事業單位工作或提供服務。

因為QQ軟件的用戶粘性極大,因此該公司的產品幾乎涉及互聯網的每一個方面,作為公司,顯然希望把范圍擴的大一點。而員工則會認為此條很不公平,因為根據此條,其幾乎不能在任何與互聯網有關的公司進行工作。筆者認為,不能簡單的通過條文看此案,對于是否構成競業禁止的問題,法院肯定也會根據員工在騰訊工作期間的工作性質,以及其新工作的性質來確定兩者是否存在利益沖突,如果確實存在,才會適用相關的競業限制法規。

三、被告是否為競業限制的對象?

從離職員工在博客上公布的材料可以看出,無論是離職員工還是公眾都有一種誤解,即基層的員工都不應當成為競業限制的對象。勞動合同法第24條規定“競業限制人員限于用人單位的高級管理人員、高級技術人員和其他負有保密義務的人員。”到底被告是否是屬于勞動合同法規定的競業限制人員,還值得商榷。

對此問題,筆者在此也要建議騰訊以及其他類似的公司完善一下公司的勞動合同。首先,應根據勞動合同法加入競業限制補償的條款,其次,競業限制條款的具體內容可以制定的更人性化一點,比如在合同中列明員工在公司的工作內容和職責、然后在競業限制條款中相對應的加入員工離職后不得到在新公司從事與原工作內容和職責相關聯工作的內容,這樣更合理,員工的感覺顯然會更好一點。

最后,騰訊公司此次起訴員工的案件一定程度上反映了國內企業商業秘密保護確實處于尷尬境地:一方面,商業秘密侵權嚴重,國內高科技企業對于保護自身商業秘密有迫切要求,而另一方面,勞動者對于企業過于強勢的維權舉動存在很大不滿。這個問題顯然不是一朝一夕可以解決的,除了法規的完善,也要求全社會保護知識產權意識的提升。

騰訊針對離職員工等類似的關于“競業限制”的訴訟,都頗有“醉翁之意不在酒”的意味。而一位騰訊內部員工私下透露,“公司這樣做,主要也是想對現有員工起到警示作用。”

4.思考總結

關于競業限制協議,有以下幾點值得我們注意:(1)競業限制協議對期限、范圍、地域、補償金和違約金等沒有約定,或者約定不明時應該如何處理呢?(2)用人單位未按約支付經濟補償金,競業限制協議是否有效?(3)勞動者違反競業限制約定并支付違約金后,是否還需要承擔競業限制義務,繼續履行協議呢?(4)勞動合同解除或者終止的原因會影響競業限制協議的效力嗎?(5)用人單位應當支付的競業限制經濟補償的下限;(6)勞動者違約的違約金上限。

鑒于此,筆者認為,可以通過最高人民法院的司法解釋和人力資源和社會保障部的部門規章對有關問題作出如下規定:

1)用人單位未按約支付經濟補償金,競業限制協議無效,勞動無需繼續履行競業限制協議;

2)勞動者違反競業限制約定并支付違約金后,仍然需要承擔競業限制義務,繼續履行協議;除非協議已經無法履行,或者履行已經沒有實質性意義;

3)勞動者依據《勞動合同法》第三十八條第二款的規定解除勞動合同的,競業限制協議無效。解除或者終止勞動合同的其他情形不影響競業限制協議的效力;

4)用人單位應當按月支付的競業限制經濟補償不得低于勞動者離職前十二個月的月平均工資的1/2。另外,如果競業限制協議約定不明,可以考慮通過地方法規作出有關處理方法的規定;關于違約金上限問題,可以在司法實踐中按照合理原則確定,也可以在地方法規中規定。

5)另外,支付時間可以規定為“在解除或者終止勞動合同后”,即為競業限制期限之內;競業限制補償金是對勞動者在勞動合同終止或解除以后不能就業或限制從業期間的補償,系勞動者離職后方產生的補償費用,屬于補償金性質,其與勞動報酬二者性質完全不同,支付依據也不同。工資及福利待遇中顯然不能包含一個離職后方產生的費用,就如解除勞動合同的經濟補償金不能約定包含在工資中一樣,競業限制補償金也不能包含在工資中。

6)關于支付方式,可以規定為“允許勞動者和用人單位在競業限制協議中對經濟補償金的支付方式進行約定”。這樣對于用人單位而言,既解決了按月支付時操作不便產生法律風險的困擾,又避免了一次性支付時可能帶來的經營成本的提高。而對于勞動者來說,既避免了領取時的不便,也能夠保證自己的合法權益得到保障。

5.參考文獻

[1]吳圣奎,離職競業限制的自由約定和法律規制——兼評勞動合同法相關規定,首都師范大學學報(社會科學版)2009年第5期

[2]黃能權,完善《勞動合同法》中競業限制制度的法律思考,碩士學位論文

騰訊大數據報告范文第3篇

關鍵詞:大數據 基層社會治理創新 網格化服務 信息技術 互聯網

大數據是繼互聯網、物聯網、云計算之后,又一新的技術革命,它標志著人類社會正從信息時代、知識時代向智能時代邁進。大數據時代為基層社會治理創新提出了新的機遇和挑戰,大數據時代,如何把大數據技術運用到基層社會治理中,是一個需要各級政府認真思索和深入研究的問題。

最近,我們對撫順市高山社區利用大數據來創新社區治理的實踐進行了多次調研,了解到該社區在社區管理和服務中,尤其是在基層社會治理中,具有大數據思維,使用了大數據技術,取得了非常好的效果,這種做法值得參考和借鑒。

一、高山社區以大數據推進基層社會治理創新的基本做法

高山社區位于遼寧省撫順市順城區北部高爾山腳下的城鄉交界處,是2006年底棚戶區改造后回遷的。2012年,高山社區在撫順市率先垂范實行網格化管理。利用大數據思維以及使用大數據技術,將高山社區劃分成5個網格,形成“人到格中去,事到格中辦”的管理和服務模式。將環境整治、維穩綜治、安全生產、民生保障和便民服務等工作下沉到網格,構建以大數據為依托的全方位社區服務框架。社區管理和服務形成嶄新氛圍,獲得全省遠程教育示范站點、全省就業示范社區、全省學習郭明義先進社區、全省打擊傳銷示范社區、全市文明社區和全市和諧創建先進社區等榮譽稱號百余項。

(一)完善基礎信息采集,建立社區服務信息庫

擁有真實可靠的數據信息是大數據應用的前提和基礎。高山社區結合網格化管理,借助“一圖兩表四冊”入戶采集信息。采集整理的數據分為基礎數據、政務管理和公共服務三大類,把房屋數據、人口數據和社會組織等劃分為基礎數據,把走訪數據、黨建數據和輿情數據等劃分為政務管理數據,把服務數據、政策公告、醫療數據和活動數據等劃分為公共服務數據。構建“問需于網格、分解整合、零距離服務”的數字化管理和服務平臺,從而為居民提供精細化的服務。

(二)以居民需求為導向,創新社區管理和服務

(三)以服務居民為宗旨,實施社區網格化服務

二、高山社區以大數據推進基層社會治理創新的顯著效果

大數據時代,大數據是提高治理水平和提升治理能力的重要方法和措施,高山社區以大數據推進基層社會治理創新,成效顯著。

(一)提高了社區管理和服務能力

中國共產黨的根本宗旨是全心全意為人民服務,而應用大數據的終極目的也是利用數據信息的價值性為人類社會服務。如何滿足居民日益增長的物質和精神需求,如何依法保障居民的各種權益,如何使居民得到更多實惠,是高山社區為奮斗目標。一方面,實施惠民工程,強化社區公共服務效能。為了使居民可以自由參與、主動發聲,高山社區創建了社區論壇。利用這個互聯互通的對話空間以及發聲渠道,各利益主體實現了線上對話和線下協商。社區居委會可以及時地發現居民的利益訴求,通過“兩代表一委員”進社區,組織線下的協商協調,圓滿地解決了困擾居民多年的難點和熱點問題。另一方面,強化志愿服務,加大社會組織的培育。高山社區基層社會治理創新模式的成功有一個重要的原因是建立了社區、居民、政府和企業的共贏機制,這也是社區治理可持續發展的一個重要保證。高山社區有效發揮黨員先鋒模范帶頭作用,積極向政府尋求幫助,吸引轄區企業和民間組織參與社區治理。

(二)增強了社區居民自治能力

不斷增強社區居民的自我管理和自我服務能力是基層社會治理創新的終極目標。高山社區一方面積極探索政府購買服務,另一方面大力培育公益性社會組織,服務居民的渠道不斷拓寬。通過建構“共駐共建、多方參與、管理有序、利益協調”的基層社會治理模式,優化了基層社會治理結構,使居民更加主動全面地參與到社區建設中來,形成多方參與的工作氛圍和基層社會治理體系。目前,高山社區建立了居民議事制度,設立了黨代表工作室、民情議事廳。不斷地提高社會組織、轄區單位、志愿者隊伍和居民主動參與社區自治的熱情,不斷地強化社會組織的作用,有效地加強了居民自我管理、自我服務和自我教育的能力。

三、從高山社區以大數據推進基層社會治理創新得到的啟示與思考

大數據是信息技術發展的必然結果,目前各行各業已經廣泛應用。在基層社會治理中,我們要積極利用大數據來實現社區居民的自我管理、自我服務和自我教育。從高山社區的實踐來看,我們得到的啟示與思考如下。

(一)培養大數據思維是大數據時代基層社會治理創新的基礎

隨著信息技術的迅猛發展,云計算、移動互聯網、物聯網和大數據大展身手,智慧城市落地生根,過去的信息化概念已經跟不上信息技術發展給人民生活帶來的巨大變化的腳步。因此,傳統的社區管理和社區服務必須通過改革實現創新與突破,才能滿足大數據時代多個主體共同參與基層社會治理的需要。從高山社區的實踐探索不難發現,轉變觀念、培養大數據思維,把大數據理念為我所用,有助于增強基層社會治理能力,有助于基層社會治理機制創新,有助于基層社會治理管理個性化化、服務智能化和決策智慧化。

(二)掌握基礎數據是大數據時代基層社會治理創新的關鍵

大數據時代,掌握基礎數據是基層社會治理創新的關鍵。各項公共服務的提供以及基層社會治理創新,都需要大量的數據。否則就不能準確了解居民的各項基本需求和個性化需求,也很難提供精準化、個性化的服務。高山社區為了及時掌握精準數據采取了以下做法:第一,科學劃分社區基礎網格。第二,開發社區采集綜合信息系統終端軟件。主動學習和探索社區基礎數據采集、存儲、分析、整合和控制的方法,使基礎信息采集規范化、標準化。第三,整合規范網格管理人員隊伍。網格員實行定崗定責制,統一規范采集本網格流動人口、常住人口、轄區企業等信息,提供給街道公共信息資源庫。

(三)確保數據安全是大數據時代基層社會治理創新的保障

騰訊大數據報告范文第4篇

基于數據大集中的監管手段——現場檢查系統(EAST系統)應運而生?,F在,運用EAST系統進行建模分析,從系統中直接篩選符合條件的信息,實時跟蹤數據異動,僅用一分鐘就能迅速篩查出過去需要好幾天才能查出來的貸款挪作保證金等違規情況,現場檢查質效得到大幅提升。

這一系統已經在提升監管水平與效率等方面發揮了重要作用。從實踐來看,湖北銀監局組織了專業團隊,認真做好制定實施規劃、夯實數據基礎、強化科技支撐等先期工作,順利成為省局版EAST系統首批試點單位之一。由于EAST系統采集數據具有大規模、細顆粒、標準化、自動化等特點,易于進行海量數據的篩選、關聯、比對等操作,正好與信用卡的業務特點以及所秉承的“大數法則”風控基礎相契合。

在對轄內某銀行信用卡業務的現場檢查中,湖北銀監局以風險管理、收費管理、質量管理等常見違規問題為切入點,利用EAST系統分析功能建立了一系列模型,提取了不少違規疑點信息,實現“精確打擊”。

信用卡疑似套現在交易數據上常有一些異常表現,如每筆交易金額較大、先還后借且交易間隔時間短、為得到最長免息期交易一般發生在還款日附近等等。根據這些疑點信息,湖北銀監局建立了相關模型,篩選出近千筆存在套現傾向的交易,督促該銀行做好風險排查和防范工作。通過EAST系統建立模型還篩選出惡意透支的可疑名單,下一步將通過現場檢查核實催收情況綜合判斷。信用卡業務作為EAST系統運用的“標靶”,為下一步這一系統延伸到對銀行信貸業務、表外業務及外部風險的現場檢查打下了扎實基礎。

從實踐中來看,通過EAST系統的數據直接對接,一方面可以有效克服以往銀行機構手工數據錄入的選擇性規避和操作失誤,確保了數據的真實性和一致性;另一方面可以依托系統數據的前期跟蹤、監測和分析,準確定位疑點,有效聚焦風險,大幅縮小檢查范圍,提升檢查針對性,實現非現場監管和現場監管的高效聯動。EAST系統還能夠充分及時地對數據信息進行處理,為監管人員及時

- 1 -

捕捉、監測、分析銀行風險創造了有利條件,提升了對風險的識別、預判、預警能力,從而將各類風險隱患更好地消滅在萌芽階段,提高銀行業整體風險防控水平。

為更有效地推廣EAST系統的運用,上下間的協調聯動非常重要。應努力將EAST系統打造成一個開放式平臺。同時,還應建立跨部門的聯動工作機制。由于EAST系統科技含量高、技術難度大,推廣工作中應注重集成監管人力資源,發揮各部門專業優勢,建立溝通聯絡機制,加強科技與業務部門的融合,提高試點工作效果。EAST系統可以為現場檢查提供線索,為非現場監管提供情況驗證,同時也為市場準入提供參考意見;現場檢查和非現場監管可以運用EAST系統將問題查深查透,這樣才能將EAST系統用活用足,將其效用發揮到極致。(作者單位:湖北銀監局)

鏈接

EAST系統是銀監會自2008年起推出的現場檢查系統。這一系統顛覆了過去用抽查代替普查,用點上的問題推測面上的問題的監管模式,構造了先進的現場檢查系統平臺和靈活的系統架構,實現了對銀行業金融機構海量數據的有效挖掘和深度分析,不僅大大提高了現場檢查效率,而且為“精確打擊”提供了技術上的支持,是我國銀行業監管技術的重要突破。

騰訊大數據報告范文第5篇

1.在某電子商務網站購物時,賣家突然說交易出現異常,并推薦處理異常的客服人員。以下最恰當的做法是?( )(2.0分)

A.直接和推薦的客服人員聯系

B.如果對方是信用比較好的賣家,可以相信

C.通過電子商務官網上尋找正規的客服電話或聯系方式,并進行核實 D.如果對方是經常交易的老賣家,可以相信 我的答案:C √答對

2.劉同學喜歡玩網絡游戲。某天他正玩游戲,突然彈出一個窗口,提示:特大優惠!1元可購買10000元游戲幣!點擊鏈接后,在此網站輸入銀行卡賬號和密碼,網上支付后發現自己銀行卡里的錢都沒了。結合本實例,對發生問題的原因描述正確的是?( )(2.0分)

A.電腦被植入木馬 B.用錢買游戲幣

C.輕信網上的類似“特大優惠”的欺騙鏈接,并透露了自己的銀行卡號、密碼等私密信息導致銀行卡被盜刷 D.使用網銀進行交易 我的答案:C √答對 3.“短信轟炸機”軟件會對我們的手機造成怎樣的危害( )(2.0分)

A.短時內大量收到垃圾短信,造成手機死機 B.會使手機發送帶有惡意鏈接的短信 C.會損害手機中的SIM卡

D.會大量發送垃圾短信,永久損害手機的短信收發功能 我的答案:A √答對

4.小強接到電話,對方稱他的快遞沒有及時領取,請聯系XXXX電話,小強撥打該電話后提供自己的私人信息后,對方告知小強并沒有快遞。過了一個月之后,小強的多個賬號都無法登錄。在這個事件當中,請問小強最有可能遇到了什么情況?( )(2.0分)

A.快遞信息錯誤而已,小強網站賬號丟失與快遞這件事情無關

B.小強遭到了社會工程學詐騙,得到小強的信息從而反推出各種網站的賬號密碼 C.小強遭到了電話詐騙,想欺騙小強財產

D.小強的多個網站賬號使用了弱口令,所以被盜。 我的答案:B √答對

5.U盤里有重要資料,同事臨時借用,如何做更安全?( )(2.0分)

A.同事關系較好可以借用 B.刪除文件之后再借

C.同事使用U盤的過程中,全程查看

D.將U盤中的文件備份到電腦之后,使用殺毒軟件提供的“文件粉碎”功能將文件粉碎,然后再借給同事 我的答案:D √答對

6.網盤是非常方便的電子資料存儲流轉工具。不僅不占用空間,而且在任何電腦上都能訪問,下面這些使用網盤的做法中,哪一項會造成個人隱私信息泄露的風險?( )(2.0分)

A.將自己的信息分類,不重要的信息例如游戲文件、視頻文件上傳到云盤,個人身份證等信息存放在自己的電腦上

B.自己的照片等信息加密后再存儲到云盤,或者使用云盤的保密文件夾功能

C.將所有信息保存在云盤,設置一個復雜的云盤密碼,然后將密碼信息保存在電腦D盤的文件夾中

D.認真研究云盤的功能,設置云盤的強密碼,謹慎使用分享功能 我的答案:C √答對

7.抵御電子郵箱入侵措施中,不正確的是( )(2.0分)

A.不用生日做密碼 B.不要使用少于5位的密碼 C.不要使用純數字 D.自己做服務器 我的答案:D √答對

8.對于人肉搜索,應持有什么樣的態度?( )(2.0分)

A.主動參加 B.關注進程 C.積極轉發 D.不轉發,不參與 我的答案:D √答對

9.微信收到“微信團隊”的安全提示:“您的微信賬號在16:46嘗試在另一個設備登錄。登錄設備:XX品牌XX型號”。這時我們應該怎么做( )(2.0分)

A.有可能是誤報,不用理睬

B.確認是否是自己的設備登錄,如果不是,則盡快修改密碼 C.自己的密碼足夠復雜,不可能被破解,堅決不修改密碼 D.撥打110報警,讓警察來解決 我的答案:B √答對

10.重要數據要及時進行( ),以防出現意外情況導致數據丟失。(2.0分)

A.殺毒 B.加密 C.備份 D.格式化 我的答案:C √答對

11.要安全瀏覽網頁,不應該( )(2.0分)

A.在公用計算機上使用“自動登錄”和“記住密碼”功能 B.禁止開啟ActiveX控件和Java腳本 C.定期清理瀏覽器Cookies D.定期清理瀏覽器緩存和上網歷史記錄 我的答案:A √答對

12.日常上網過程中,下列選項,存在安全風險的行為是?( )(2.0分)

A.將電腦開機密碼設置成復雜的15位強密碼 B.安裝盜版的操作系統

C.在QQ聊天過程中不點擊任何不明鏈接 D.避免在不同網站使用相同的用戶名和口令 我的答案:B √答對

13.好友的QQ突然發來一個網站鏈接要求投票,最合理的做法是( )(2.0分)

A.因為是其好友信息,直接打開鏈接投票

B.可能是好友QQ被盜,發來的是惡意鏈接,先通過手機跟朋友確認鏈接無異常后,再酌情考慮是否投票 C.不參與任何投票 D.把好友加入黑名單 我的答案:B √答對

14.我國計算機信息系統實行( )保護。(2.0分)

A.主任值班制 B.安全等級 C.責任制 D.專職人員資格 我的答案:B √答對

15.李同學瀏覽網頁時彈出“新版游戲,免費玩,點擊就送大禮包”的廣告,李同學點了之后發現是個網頁游戲,提示:“請安裝插件”,請問,這種情況李同學應該怎么辦最合適?( )(2.0分)

A.為了領取大禮包,安裝插件之后玩游戲

B.網頁游戲一般是不需要安裝插件的,這種情況騙局的可能性非常大,不建議打開 C.詢問朋友是否玩過這個游戲,朋友如果說玩過,那應該沒事 D.先將操作系統做備份,如果安裝插件之后有異常,大不了恢復系統 我的答案:B √答對

16.我們經常從網站上下載文件、軟件,為了確保系統安全,以下哪個處理措施最正確。( )(2.0分)

A.直接打開或使用 B.先查殺病毒,再使用 C.習慣于下載完成自動安裝

D.下載之后先做操作系統備份,如有異?;謴拖到y 我的答案:B √答對 17.王同學喜歡在不同的購物和社交網站進行登錄和注冊,但他習慣于在不同的網站使用相同的用戶名和密碼進行注冊登錄,某天,他突然發現,自己在微博和很多網站的賬號同時都不能登錄了,這些網站使用了同樣的用戶名和密碼,請問,王同學可能遭遇了以下哪類行為攻擊:( )(2.0分)

A.拖庫 B.撞庫 C.建庫 D.洗庫

我的答案:B √答對

18.瀏覽網頁時,彈出“最熱門的視頻聊天室”的頁面,遇到這種情況,一般怎么辦?( )(2.0分)

A.現在網絡主播很流行,很多網站都有,可以點開看看 B.安裝流行殺毒軟件,然后再打開這個頁面 C.訪問完這個頁面之后,全盤做病毒掃描 D.彈出的廣告頁面,風險太大,不應該去點擊 我的答案:D √答對

19.瀏覽某些網站時,網站為了辨別用戶身份進行session跟蹤,而儲存在本地終端上的數據是( )(2.0分)

A.收藏夾 B.書簽 C.COOKIE D.https 我的答案:C √答對

20.你收到一條10086發來的短信,短信內容是這樣的:“尊敬的用戶,您好。您的手機號碼實名制認證不通過,請到XXXX網站進行實名制驗證,否則您的手機號碼將會在24小時之內被停機”,請問,這可能是遇到了什么情況?( )(2.0分)

A.手機號碼沒有實名制認證

B.實名制信息與本人信息不對稱,沒有被審核通過 C.手機號碼之前被其他人使用過 D.偽基站詐騙 我的答案:D √答對

21.注冊或者瀏覽社交類網站時,不恰當的做法是:( )(2.0分)

A.盡量不要填寫過于詳細的個人資料 B.不要輕易加社交網站好友 C.充分利用社交網站的安全機制 D.信任他人轉載的信息 我的答案:D √答對

22.位置信息和個人隱私之間的關系,以下說法正確的是( )(2.0分)

A.我就是普通人,位置隱私不重要,可隨意查看 B.位置隱私太危險,不使用蘋果手機,以及所有有位置服務的電子產品

C.需要平衡位置服務和隱私的關系,認真學習軟件的使用方法,確保位置信息不泄露 D.通過網絡搜集別人的位置信息,可以研究行為規律 我的答案:C √答對

23.不屬于常見的危險密碼是( )(2.0分)

A.跟用戶名相同的密碼 B.使用生日作為密碼 C.只有4位數的密碼 D.10位的綜合型密碼 我的答案:D √答對

24.家明發現某網站可以觀看“XX魔盜團2”,但是必須下載專用播放器,家明應該怎么做?( )(2.0分)

A.安裝播放器觀看

B.打開殺毒軟件,掃描后再安裝 C.先安裝,看完電影后再殺毒

D.不安裝,等待正規視頻網站上線后再看 我的答案:D √答對

25.使用微信時可能存在安全隱患的行為是?( )(2.0分)

A.允許“回復陌生人自動添加為朋友” B.取消“允許陌生人查看10張照片”功能 C.設置微信獨立帳號和密碼,不共用其他帳號和密碼 D.安裝防病毒軟件,從官方網站下載正版微信 我的答案:A √答對

多選

1.信息安全違規現象的主要原因( )(3.0分))

A.安全意識淡漠 B.敵情觀念不強 C.安全觀念滯后 D.安全技能缺乏 我的答案:ABCD √答對

2.不要打開來歷不明的網頁、電子郵件鏈接或附件是因為( )。(3.0分))

A.互聯網上充斥著各種釣魚網站、病毒、木馬程序

B.不明來歷的網頁、電子郵件鏈接、附件中,很可能隱藏著大量的病毒、木馬 C.可能含有的病毒、木馬會自動進入電腦并隱藏在電腦中,會造成文件丟失損壞 D.可能含有的病毒、木馬會自動進入電腦并隱藏在電腦中,會導致系統癱瘓 我的答案:ABCD √答對

3.在使用電腦過程中,哪些是網絡安全防范措施( )(3.0分))

A.安裝防火墻和防病毒軟件,并經常升級 B.經常給系統打補丁,堵塞軟件漏洞 C.不上一些不太了解的網站,不打開QQ上傳送過來的不明文件 D.經常清理電腦中不常用軟件和文件 我的答案:ABC √答對

4.大數據應用安全策略包括:( )(3.0分))

A.防止APT攻擊 B.用戶訪問控制 C.整合工具和流程 D.數據實時分析引擎 我的答案:ABCD √答對

5.在日常生活中,以下哪些選項容易造成我們的敏感信息被非法竊取?( )(3.0分))

A.隨意丟棄快遞單或包裹

B.在網上注冊網站會員后詳細填寫真實姓名、電話、身份證號、住址等信息 C.電腦不設置鎖屏密碼

D.定期更新各類平臺的密碼,密碼中涵蓋數字、大小寫字母和特殊符號 我的答案:ABC √答對 6.某網站的用戶數據庫泄露,影響數據總共數億條,泄露信息包括用戶名、MD5密碼、密碼提示問題/答案(hash)、注冊IP、生日等。該網站郵箱綁定的其他賬戶也受到波及,如iPhone用戶的Apple ID等。發生此類問題我們應該進行下列哪種措施,避免受到更大損失?( )(3.0分))

A.立即登錄該網站更改密碼 B.投訴該網站

C.更改與該網站相關的一系列賬號密碼 D.不再使用該網站的郵箱 我的答案:AC √答對

7.以下防范智能手機信息泄露的措施有哪幾個( )(3.0分))

A.禁用Wi-Fi自動連接到網絡功能,使用公共Wi-Fi有可能被盜用資料 B.下載軟件或游戲時,仔細審核該軟件,防止將木馬帶到手機中 C.經常為手機做數據同步備份 D.勿見二維碼就掃 我的答案:ABD √答對

8.關于“斯諾登”事件的影響,下列說法正確的有( )(3.0分))

A.暴露了網絡力量的不平衡性 B.揭露了美國霸權主義本性

C.表明了所有國家都在進行網絡監聽 D.改變了人們對網絡世界的認識 我的答案:ABD √答對 9.為了防治垃圾郵件,常用的方法有:()(3.0分))

A.避免隨意泄露郵件地址 B.定期對郵件進行備份 C.借助反垃圾郵件的專門軟件 D.使用郵件管理、過濾功能。 我的答案:ACD √答對

10.現在網絡購物越來越多,以下哪些措施可以防范網絡購物的風險?( )(3.0分))

A.核實網站資質及網站聯系方式的真偽 B.盡量到知名、權威的網上商城購物 C.注意保護個人隱私

D.不要輕信網上低價推銷廣告 我的答案:ABCD √答對

判斷

1.大數據時代,個人隱私受到了前所未有的威脅。(1.0分)

我的答案:正確 √答對

2.安全防范工作是一個循序漸進、不斷完善的過程。(1.0分)

我的答案:正確 √答對 3.在復印店復印時,市民要確保個人資料不被留底復印。(1.0分)

我的答案:正確 √答對

4.涉密網絡是存儲、處理和傳輸涉及國家秘密信息的信息系統或網絡。(1.0分)

我的答案:正確 √答對

5.2003年,中央辦公廳、國務院辦公廳頒發《國家信息化領導小組關于加強信息安全保障工作的意見》(中辦發[2003]27號)明確指出“實行信息安全等級保護”。(1.0分)

我的答案:正確 √答對

6.在不需要文件和打印共享時,關閉文件共享功能,避免給黑客尋找安全漏洞的機會。(1.0分)

我的答案:正確 √答對

7.我國信息系統安全等級保護第一級是指導保護級。(1.0分)

我的答案:錯誤 √答對

8.互聯網是由各種不同類型和規模獨立運行與管理的計算機或網絡組成的全球范圍的信息網絡。(1.0分)

我的答案:正確 √答對

9.在使用瀏覽器時關閉電腦接收cookie的選項,避免受到cookie的追蹤。(1.0分)

我的答案:正確 √答對 10.使用身份證復印件等證明材料時,在身份證復印件上寫明用途,重復復印無效等。(1.0分)

我的答案:正確 √答對

11.隱私保護的安全監管是政府組織對大數據安全的需求之一。(1.0分)

我的答案:正確 √答對

12.個人信息泄露會被不法分子利用去實施電信詐騙、網絡詐騙等犯罪。(1.0分)

我的答案:正確 √答對

13.我國信息系統安全等級保護共分五級。(1.0分)

我的答案:正確 √答對

14.身份證復印件要標注用途。(1.0分)

我的答案:正確 √答對

15.根據大數據時代信息傳播的特點,分析個人隱私權利侵害行為的產生與方式沒什么意義。(1.0分)

我的答案:錯誤 √答對

16.網絡支付類查詢和操作密碼可以設置成一樣的。(1.0分)

我的答案:錯誤 √答對

17.采用明文傳輸可以有效防止第三方竊聽和篡改通信內容。(1.0分)

我的答案:錯誤 √答對 18.非涉密網絡是存儲、處理和傳輸非國家秘密信息的信息系統或網絡。(1.0分)

我的答案:正確 √答對

19.大數據的安全存儲采用虛擬化海量存儲技術來存儲數據資源。(1.0分)

我的答案:正確 √答對

20.當看到“掃二維碼送禮品”時,可以隨意掃。(1.0分)

騰訊大數據報告范文第6篇

幾十年來, 國內會計行業仍然停留在手工記帳上, 缺乏先進的會計軟件、硬件與網絡, 會計電算化推進緩慢, 而且一直以一維核算模式為核心進行封閉記賬, 會計財務報告披露的信息、數據無法反映企業真實的價值活動, 并存在著信息失真、信息披露不全、信息缺乏時效性等等問題。

一、傳統會計財務報告的缺陷

傳統會計核算以會計科目為基礎進行一維化核算, 著重反映財務會計信息與貨幣信息, 缺乏多元化的內容。

(一) 計量標準單一

傳統會計財務報告只能在市場價格與歷史成本兩種計量標準中任選其一:在資本泡沫急劇膨脹“牛市”周期, 會計財務報告最可靠的計量標準是“市場價格”;而在股市崩潰的“熊市”周期, 會計財務報告最可靠的計量標準是“歷史成本”。然而這兩種計量標準都有不足之處:市場價格雖然可以迅速、靈敏地反映市場變化, 但會隨著市場非理性波動出現劇烈波動, 缺乏穩定性;而歷史成本只能反映過去時的投資成本, 缺乏時效性。

(二) 忽視價值活動

傳統會計財務報告只能記錄貨幣信息, 無法反映成本價值與資本價格的背離, 無法分析影響資本市場與資產價格的非理性因素, 也不能真實反映企業內部的價值活動。

(三) 披露形式簡單

傳統會計財務報告披露形式過于簡單, 只披露本公司信息, 不披露子公司關聯信息, 也不披露本公司董事會變更、本公司管理層變化等等信息。

二、多維會計思想

所謂多維會計, 指的是以網絡技術為載體, 吸收三式會計、平衡計分卡與作業成本法的優勢, 以記錄企業價值活動為中心, 在業務分錄中融合現金流、核算流與管理流, 將人力、財力、管理、客戶等非傳統指標融合為一個整體, 實現所有利益相關方同步共享會計信息的多維多元信息系統。

多維會計體系的業務表單以企業價值活動為核心, 在主干層次上, 反映企業業務活動的主體、對象、內容;在輔助層次上, 反映企業業務活動的時間、空間與方式;在實現層次上, 反映企業業務活動的目標、保證與價值。——由于它披露的信息可以分為表單、核算、管理等三個維度, 故稱為多維會計。

三、基于多維會計思想變革會計財務報告

長期以來, 國內會計財務報告披露都片面重視財務會計信息, 忽視管理會計信息, 不注意動態分析, 不計算企業價值活動, 不披露客戶滿意度, 企業管理層變動信息等等信息。——因此, 我們將基于多維會計思想, 變革傳統會計財務報告, 設計新的多維會計財務報告體系。

多維會計財務報告披露的主要信息應該包括:

(一) 企業運營活動

包括當月原材料價格變化, 企業當月及未來的投資活動暨投資可能收益, 當月用戶對企業產品的滿意度, 當月產品的抽檢合格率, 當月凈收入與銷售成本;當月董事會公告等內容。

(二) 企業對外投資

包括企業所持有其他公司股票的當月股價變化, 還有企業收購其他公司的預期收益率等內容。

(三) 籌資終止

包括企業當月融資情況, 暨企業總債務的變化, 還有企業剝離非核心資產獲得的收益等內容。

(四) 公司治理

包括公司董事會、管理層、大股東的變化等內容 (當前中興、長春長生等企業中高層頻頻發生各種非正常重大人事變更, 對企業的生存、發展及投資人的影響重大, 不可不詳細披露) 。

(五) 關聯協同

包括本公司與其他公司的協作, 暨協作對雙方造成的有利影響、預期收益率等內容。

四、多維會計財務報告體系的優點

多維會計財務報告詳細描述現金流、會計流、會計流和歷史成本、市場價格變化, 結合了歷史成本、市場價格兩種計量標準, 全面反映企業的價值活動, 具有豐富多元、及時、穩定的優點;通過計算企業商業信譽等潛在財富, 可以幫助投資者預測企業未來的價值成長空間, 亦可倒逼企業不斷提高自身商業信譽;多維會計財務報告實時、動態反映資本市場上價格的變化, 有利于投資人及時規避資本市場非理性波動;多維會計報告詳細反映管理層的變化, 有利于倒逼管理層加強自我建設, 主動提高自己的學習力與管理力, 主動進行全生命周期成本控制, 從而促進企業健康發展。

五、結語

多維會計財務報告有效克服了傳統會計財務報告信息失真、信息披露不全、信息缺乏時效性等問題, 加強了企業披露信息的全面性與透明度, 有利于會計制度的完善與發展。我們相信, 在大數據時代, 多維會計財務報告將表現出強大的生命力。

摘要:傳統的會計財務報告以一維核算模式為核心, 計量標準不全面, 披露形式簡單, 已經無法適應大數據時代的要求, 必須進行變革。本文將通過分析傳統會計財務報告的缺陷, 對癥下藥, 設計新的多維會計財務報告體系。

關鍵詞:大數據,多維會計,財務報告

參考文獻

[1] 趙春明.大數據時代下的會計信息化研究[J].中國商論, 2018 (21) .

[2] 徐春.試論大數據時代管理會計的機遇、挑戰與應對[J].財會學習, 2018 (6) .

[3] 趙序海.基于多維會計的財務會計與管理會計融合研究[J].財會通訊, 2015 (15) .

上一篇:如何選購壁掛爐范文下一篇:團組織生活主題范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火