版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Data Warehouse overview,2,數(shù)據(jù)倉庫管理的歷史時(shí)期,人工管理方式: 這一時(shí)期是在20世紀(jì)50年代中期以前,這一階段的計(jì)算機(jī)應(yīng)用主要用于科學(xué)計(jì)算,外存只有紙帶、磁帶、卡片等,數(shù)據(jù)處理的方式基本上是批處理。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)是:數(shù)據(jù)不保存;沒有專用的數(shù)據(jù)管理軟件,每個(gè)應(yīng)用都必須自己完成存儲(chǔ)結(jié)構(gòu)、存取方法、輸入輸入輸出等數(shù)據(jù)管理功能;一組數(shù)據(jù)對(duì)應(yīng)一個(gè)應(yīng)用,這使得程序之間可能有重復(fù)的數(shù)據(jù)。 文件系統(tǒng)管理
2、 這一階段在20世紀(jì)50年代后期至60年代中后期,計(jì)算機(jī)應(yīng)用開始用于信息管理,由于數(shù)據(jù)存儲(chǔ)、檢索和維護(hù)等需求,使得相應(yīng)的研究開展起來了,在硬件和軟件方面都得到了發(fā)展,磁盤磁鼓出現(xiàn),操作系統(tǒng)也產(chǎn)生。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)主要是:: 數(shù)據(jù)保存,數(shù)據(jù)可以長期保存在磁盤上; 有操作系統(tǒng)的文件管理系統(tǒng),文件結(jié)構(gòu)化,數(shù)據(jù)的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)有了區(qū)別; 有了存儲(chǔ)文件后,數(shù)據(jù)可以不再僅僅屬于某一個(gè)應(yīng)用,而能進(jìn)行一定程度
3、的復(fù)用。 但文件系統(tǒng)在數(shù)據(jù)管理方面存在缺陷,表現(xiàn)在數(shù)據(jù)冗余度大,數(shù)據(jù)和程序之間缺乏獨(dú)立性,容易造成數(shù)據(jù)的不一致性。 數(shù)據(jù)庫系統(tǒng)(60年代末開始),3,數(shù)據(jù)倉庫的發(fā)展的動(dòng)力,業(yè)務(wù)需求驅(qū)動(dòng)主要是詳細(xì)的分析科學(xué)的經(jīng)營市場活動(dòng)的細(xì)化和實(shí)施等數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)量不斷擴(kuò)大沒有數(shù)據(jù)倉庫等相關(guān)技術(shù)很難全面了解企業(yè)項(xiàng)目驅(qū)動(dòng),4,數(shù)據(jù)倉庫定義,Inmon的定義:DataWarehouse is a subject-oriented,i
4、ntegrated,time-variant, and nonvolatile collection of data in support of management’s decision making process數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的 數(shù)據(jù)倉庫的數(shù)據(jù)是與時(shí)間相關(guān)的 數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的,5,簡單的數(shù)據(jù)倉庫架構(gòu),6,數(shù)據(jù)倉庫實(shí)際應(yīng)用例子,7,數(shù)據(jù)集成,企業(yè)全面的經(jīng)營數(shù)據(jù)OLTP
5、分散在各個(gè)不同系統(tǒng)中(事件獨(dú)立)銀行:卡、儲(chǔ)蓄、信貸、會(huì)計(jì)、中間業(yè)務(wù)等等系統(tǒng)BOSS+增值業(yè)務(wù)+財(cái)務(wù)集成數(shù)據(jù)建立關(guān)聯(lián)事件關(guān)聯(lián)(業(yè)務(wù)之間是相互關(guān)聯(lián))客戶數(shù)據(jù)統(tǒng)一歷史數(shù)據(jù)大量歷史數(shù)據(jù)的保存問題中國建設(shè)銀行一個(gè)中等規(guī)模的省產(chǎn)生每天的交易詳細(xì)記錄大約200M通常在業(yè)務(wù)系統(tǒng)中只保存當(dāng)日數(shù)據(jù)歷史數(shù)據(jù)查詢困難,8,數(shù)據(jù)倉庫數(shù)據(jù)處理流程,,DW數(shù)據(jù)抽取、轉(zhuǎn)換,裝載數(shù)據(jù)到ODS,9,ETL簡述,10,ETL定義,ETL: E
6、xtract-Transform-Load 數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。 ETL是BI/DW的核心和靈魂,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實(shí)施數(shù)據(jù)倉庫的重要步驟,11,ETL應(yīng)用過程,數(shù)據(jù)抽取 抽取主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同網(wǎng)點(diǎn)的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,制定可操作的數(shù)據(jù)源
7、,制定增量抽取的定義。 (數(shù)據(jù)源和文件等多種形式)數(shù)據(jù)傳輸 數(shù)據(jù)傳輸是通過網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)到本地目錄下。,12,ETL應(yīng)用過程,數(shù)據(jù)的清洗和轉(zhuǎn)換 轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型 到分析模型,通過內(nèi)建的庫函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的 轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚的監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn),換數(shù)據(jù)類
8、型轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算、數(shù)據(jù)拼接等等。 清洗主要是針對(duì)系統(tǒng)的各個(gè)環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整、違反業(yè)務(wù) 規(guī)則等問題,允許通過試抽取,將有問題的紀(jì)錄先剔除出來,根據(jù)實(shí)際情況調(diào)整相應(yīng) 的清洗操作。,13,ETL應(yīng)用過程,數(shù)據(jù)加載入庫 數(shù)據(jù)加載主要是將經(jīng)過轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉庫里面,即入庫,可以通過數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫的方式來進(jìn)行數(shù)據(jù)裝載,可以充分體現(xiàn)高效性ETL調(diào)度 ETL的調(diào)度控制方式有
9、兩種: 自動(dòng)方式 由系統(tǒng)每天定時(shí)或準(zhǔn)實(shí)時(shí)啟動(dòng)后臺(tái)程序,自動(dòng)完成數(shù)據(jù)倉庫ETL處理流程。 手動(dòng)方式 用戶可以通過前臺(tái)監(jiān)控平臺(tái),對(duì)單個(gè)目標(biāo)或批量目標(biāo)進(jìn)行手工調(diào)度。,14,ETL應(yīng)用過程,監(jiān)控 主要是監(jiān)控ETL的整個(gè)過程,通過掃描ETL各模塊的日志中的關(guān)鍵值,如記錄時(shí)間等信息與當(dāng)前的狀態(tài)作比較,如果超過某一個(gè)值,則認(rèn)為該模塊運(yùn)行可能出現(xiàn)問提,應(yīng)告警。,15,ETL工具框架,16,OLAP簡述,17
10、,OLAP&OLTP(on-line transaction processing),18,什么是OLAP,定義1 :OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2 :OLAP(聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映
11、企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。,19,相關(guān)基本概念,1.維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2.維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度
12、不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3.維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)4.多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5.數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000),20,OLAP特性,(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要
13、求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。 (2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。。(4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。,21,OLAP表現(xiàn)方式,鉆取改變維的層次,變換分析的粒度向上鉆?。╮ol
14、l up)和向下鉆?。╠rill down)切片和切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊旋轉(zhuǎn)(pivot)旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換),22,OLAP的分析方法(一)切片、切塊,,23,OLAP的分析方法(二)鉆取,按時(shí)間維向下鉆取,按時(shí)間維向上鉆取,,,,60,24,OLAP的分析方法(三)旋轉(zhuǎn),25,OLAP分類,,26,
15、OLAP實(shí)現(xiàn)方法,ROLAP數(shù)據(jù)存儲(chǔ):基于關(guān)系數(shù)據(jù)庫結(jié)構(gòu)分類事實(shí)表:用來存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字維度表:每個(gè)維至少使用一個(gè)表來存放維的層次、成員類別等維的描述信息 數(shù)據(jù)模型星型模式雪花模式 MOLAP(Multidimensional OLAP)數(shù)據(jù)存儲(chǔ):使用多維數(shù)組存儲(chǔ)數(shù)據(jù)基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)以多維數(shù)據(jù)組織方式為核心結(jié)構(gòu)分類:立方塊(Cube)HOLAP(Hybrid OLAP)數(shù)據(jù)存儲(chǔ):基于混合數(shù)據(jù)
16、組織的OLAP實(shí)現(xiàn)其他實(shí)現(xiàn)方法,27,OLTP、ROLAP與MOLAP模式,,,28,ROLAP的星型模式(Star Schema),事實(shí)表:用來存儲(chǔ)事實(shí)的度量值和各個(gè)維的碼值。維 表:用來存放維的元數(shù)據(jù)(維的層次、成員類別等描述信息)。,29,MOLAP的多維立方體(Multicube),,30,ROLAP與MOLAP比較,ROLAP優(yōu)勢沒有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用.可以通過SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的
17、存儲(chǔ)現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL 的OLAP擴(kuò)展(cube,rollup)等大大提高ROALP的速度,MOLAP優(yōu)勢性能好、響應(yīng)速度快專為OLAP所設(shè)計(jì)支持高性能的決策支持計(jì)算復(fù)雜的跨維計(jì)算多用戶的讀寫操作行級(jí)的計(jì)算,31,ROLAP與MOLAP比較(續(xù)),ROLAP缺點(diǎn)一般比MDD響應(yīng)速度慢不支持有關(guān)預(yù)計(jì)算的讀寫操作SQL無法
18、完成部分計(jì)算無法完成多行的計(jì)算無法完成維之間的計(jì)算,MOLAP缺點(diǎn)增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費(fèi)用受操作系統(tǒng)平臺(tái)中文件大小的限制,難以達(dá)到TB 級(jí)(只能10~20G)需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸無法支持維的動(dòng)態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn),32,OLAP體系結(jié)構(gòu),ROLAP Architecture MOLAP Architecture,33,OLAP體系結(jié)構(gòu)(續(xù)),HOLAP Architectu
19、re,34,流行的OLAP工具介紹,OLAP產(chǎn)品Hyperion EssbaseOracle ExpressIBM DB2 OLAP ServerSybase Power dimension Informix MetacubeCA OLAP SERVERMicrosoft analysis servicesBrioCognosBusiness ObjectMicroStrategy,OLAP產(chǎn)品涉及的業(yè)務(wù)操作由
20、外部或內(nèi)部數(shù)據(jù)源批量裝入數(shù)據(jù)由業(yè)務(wù)系統(tǒng)增量裝入數(shù)據(jù)沿?cái)?shù)據(jù)層次匯總數(shù)據(jù)對(duì)基于業(yè)務(wù)模型的新數(shù)據(jù)進(jìn)行計(jì)算時(shí)間序列分析高復(fù)雜的查詢沿?cái)?shù)據(jù)層次細(xì)化分析隨機(jī)查詢多個(gè)聯(lián)機(jī)會(huì)話(多用戶同時(shí)訪問),35,OLAP展望,面向?qū)ο蟮穆?lián)機(jī)分析處理O3LAP(Object-Oriented OLAP)對(duì)象關(guān)系的聯(lián)機(jī)分析處理OROLAP (Object Relational OLAP)分布式聯(lián)機(jī)分析處理DOLAP (Distributed
21、 OLAP)時(shí)態(tài)聯(lián)機(jī)分析處理TOLAP (Temporal OLAP),36,Hyperion OLAP系統(tǒng)設(shè)計(jì)框架,,,ETL,DW data,EssBase Data,Ess App Mgr &EssCmd,Internet/Intrnat,其它數(shù)據(jù),文本,,,,,Batch EssCMD,,,,,,,,Excel Plug-in,Excel 報(bào)表,EssBase OLAP Server,Web Server,,,Web
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘
- 數(shù)據(jù)倉庫建設(shè)方案
- 數(shù)據(jù)倉庫建設(shè)方案
- 醫(yī)院數(shù)據(jù)倉庫案例
- 數(shù)據(jù)倉庫規(guī)范_qdh
- 數(shù)據(jù)倉庫建設(shè)方案
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文
- 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘題庫
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題
- 外文翻譯---數(shù)據(jù)倉庫技術(shù)
- 數(shù)據(jù)倉庫應(yīng)用實(shí)例下
- 電信企業(yè)數(shù)據(jù)倉庫建設(shè)
- 數(shù)據(jù)倉庫技術(shù)知識(shí)
- 數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)文檔
- 數(shù)據(jù)倉庫課后習(xí)題答案
- 數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)
- 稅務(wù)數(shù)據(jù)倉庫的設(shè)計(jì).pdf
- 數(shù)據(jù)倉庫加速解決方案
- 數(shù)據(jù)倉庫與決策支持.pdf
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學(xué)大綱
評(píng)論
0/150
提交評(píng)論