日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Teradata數(shù)據(jù)庫行轉(zhuǎn)列函數(shù)簡介(teradata數(shù)據(jù)庫行轉(zhuǎn)列函數(shù))

隨著數(shù)據(jù)量的不斷增加,越來越多的企業(yè)開始依賴數(shù)據(jù)分析進行業(yè)務決策,數(shù)據(jù)分析變得愈加重要。Teradata作為目前全球更大的面向企業(yè)級聯(lián)機分析處理平臺,可以為企業(yè)提供可靠、可擴展、高效的數(shù)據(jù)解決方案。在Teradata數(shù)據(jù)庫中,有一種行轉(zhuǎn)列函數(shù),能夠?qū)?shù)據(jù)表的行數(shù)據(jù)轉(zhuǎn)化為列數(shù)據(jù)進行分析,這種函數(shù)的靈活性和高效性,可以為企業(yè)數(shù)據(jù)分析提供更便捷的解決方案。

行轉(zhuǎn)列的意義

在數(shù)據(jù)分析領域中,行數(shù)據(jù)和列數(shù)據(jù)代表著不同的數(shù)據(jù)類型,具有不同的分析方法和應用場景。在Teradata數(shù)據(jù)庫中,一般情況下,數(shù)據(jù)表中的數(shù)據(jù)存儲都是以行數(shù)據(jù)的形式存儲。但是,在實際業(yè)務中,需要對特定的數(shù)據(jù)展開某一列進行分析或計算。而此時,行轉(zhuǎn)列函數(shù)就派上了用場。

行轉(zhuǎn)列函數(shù)的應用場景

1.多條件的查詢

在實際業(yè)務中,很多時候需要對數(shù)據(jù)表中的多個條件進行查詢,而這些條件一般都是存儲在數(shù)據(jù)表的行數(shù)據(jù)中。如果采用傳統(tǒng)查詢方法,需要查找多次,就會造成系統(tǒng)性能的瓶頸。而行轉(zhuǎn)列函數(shù)則可以將多個條件按照某個列進行轉(zhuǎn)化,形成一個新的表或?qū)傩?,這樣只需要完成一次查詢操作即可,大大提高了效率。

2.數(shù)據(jù)透視表中的寬表轉(zhuǎn)化

在處理數(shù)據(jù)透視表中的寬表時,有時需要將某一列變?yōu)樾械男问?,這時候就可以使用行轉(zhuǎn)列函數(shù),將表格寬度縮小,加強觀察和分析。

3.處理半規(guī)范化數(shù)據(jù)

在實際業(yè)務中,很多數(shù)據(jù)是半規(guī)范化的,如果直接對其進行分析,會導致數(shù)據(jù)冗余、重復等問題,影響分析效果。行轉(zhuǎn)列函數(shù)則可以將這些數(shù)據(jù)進行規(guī)范化處理,便于分析。

行轉(zhuǎn)列函數(shù)的用法示例

Teradata數(shù)據(jù)庫中提供了以下兩個行轉(zhuǎn)列的函數(shù):

1. COLLECT(列轉(zhuǎn)行)

COLLECT函數(shù)能夠?qū)⒁涣兄械臄?shù)值數(shù)據(jù)匯總起來,生成一行數(shù)據(jù)。具體的語法如下:

COLLECT(expr [ORDER BY ordering_cols] [NULLS FIRST | LAST])

其中,expr表示需要匯總的列名;order by 標識表示排序方式,可以不寫;Nulls First | Last標識表示空值排在前面還是排在后面。

2. EXPAND(行轉(zhuǎn)列)

EXPAND函數(shù)能夠?qū)⑿袛?shù)據(jù)變化為列數(shù)據(jù)。具體的語法如下:

EXPAND ON expression USING tablefunction (expr)

其中,expression表示分組的標識,可以用于分組計算之類的操作;tablefunction表示需要使用的處理函數(shù),可以是任何可以接受參數(shù)并返回結果表的函數(shù);expr表示需要處理的列名或表達式。

行轉(zhuǎn)列函數(shù)是Teradata數(shù)據(jù)庫中的一個重要工具,它能夠快速、高效地將行數(shù)據(jù)進行轉(zhuǎn)化,變成列數(shù)據(jù)進行分析。行轉(zhuǎn)列函數(shù)能夠在處理多條件查詢、數(shù)據(jù)透視表、半規(guī)范化數(shù)據(jù)等實際問題時發(fā)揮重要的作用。熟練掌握行轉(zhuǎn)列函數(shù)的使用方法,能夠讓數(shù)據(jù)分析工作更加高效和便捷。

相關問題拓展閱讀:

  • 大數(shù)據(jù)分析工具有哪些,有什么特點?
  • 萬字詳解ETL和數(shù)倉建模

大數(shù)據(jù)分析工具有哪些,有什么特點?

常用的數(shù)據(jù)分析工具有如下幾個

  SAS

  一般用法。SAS由于其功能強大而且可以編程,很受高級用戶的歡迎。也正是基于此,它是最難掌握的軟件之一。使用SAS時,你需要編寫SAS程序來處理數(shù)據(jù),進行分析。如果在一個程序中出現(xiàn)一個錯誤,找到并改正這個錯誤將是困難的。

  數(shù)據(jù)管理。在數(shù)據(jù)管理方面,SAS是非常強大的,能讓你用任何可能的方式來處理你的數(shù)據(jù)。它包含SQL(結構化查詢語言)過程,可以在SAS數(shù)據(jù)集中使用SQL查詢。但是要學習并掌握SAS軟件的數(shù)據(jù)管理需要很長的時間,在Stata或SPSS中,完成許多復雜數(shù)據(jù)管理工作所使用的命令要簡單的多。然而,SAS可以同時處理多個數(shù)據(jù)文件,使這項工作變得容易。它可以處理的變量能夠達到32,768個,以及你的硬盤空間所允許的更大數(shù)量的記錄條數(shù)。

  統(tǒng)計分析。SAS能夠進行大多數(shù)統(tǒng)計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析)。SAS的更優(yōu)之處可能在于它的方差分析,混合模型分析和多變量分析,而它的劣勢主要是有序和多元logistic回歸(因為這些命令很難),以及穩(wěn)健方法(它難以完成穩(wěn)健回歸和其他穩(wěn)健方法)。盡管支持調(diào)查數(shù)據(jù)的分析,但與Stata比較仍然是相當有限的。

  繪圖功能。在所有的統(tǒng)計軟件中,SAS有最強大的繪圖工具,由SAS/Graph模塊提供。然而,SAS/Graph模塊的學習也是非常專業(yè)而復雜,圖形的制作主要使用程序語言。SAS 8雖然可以通過點擊鼠標來交互式的繪圖,但不象SPSS那樣簡單。

  總結。SAS適合高級用戶使用。它的學習過程是艱苦的,最初的階段會使人灰心喪氣。然而它還是以強大的數(shù)據(jù)管理和同時處理大批數(shù)據(jù)文件的功能,得到高級用戶的青睞。

  Stata

  一般用法。Stata以其簡單易懂和功能強大受到初學者和高級用戶的普遍歡迎。使用時可以每次只輸入一個命令(適合初學者),也可以通過一個Stata程序一次輸入多個命令(適合高級用戶)。這樣的話,即使發(fā)生錯誤,也較容易找出并加以修改。

  數(shù)據(jù)管理。盡管Stata的數(shù)據(jù)管理能力沒有SAS那么強大,它仍然有很多功能較強且簡單的數(shù)據(jù)管理命令,能夠讓復雜的操作變得容易。Stata主要用于每次對一個數(shù)據(jù)文件進行操作,難以同時處理多個文件。隨著Stata/SE的推出,現(xiàn)在一個Stata數(shù)據(jù)文件中的變量可以達到32,768,但是當一個數(shù)據(jù)文件超越計算機內(nèi)存所允許的范圍時,你可能無法分析它。

  統(tǒng)計分析。Stata也能夠進行大多數(shù)統(tǒng)計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,以及一些多變量分析)。Stata更大的優(yōu)勢可能在于回歸分析(它包含易于使用的回歸分析特征工具),logistic回歸(附加有解釋logistic回歸結果的程序,易用于有序和多元logistic回歸)。Stata也有一系列很好的穩(wěn)健方法,包括穩(wěn)健回歸,穩(wěn)健標準誤鄭緩配的回歸,以及其他包含穩(wěn)健標準誤估計的命令。此外,在調(diào)查數(shù)據(jù)分析領域,Stata有著明顯優(yōu)勢,能提供回歸分析,logistic回歸,泊松回歸,概率回歸等的調(diào)查數(shù)據(jù)分析。它的不足之處在于方差分析和傳統(tǒng)的多變量方法(多變量方差分析,判別分析等)。

  繪圖功能。正如SPSS,Stata能提供一些命令或鼠標點擊的交互界面來繪圖。與SPSS不同的是它沒有圖形編輯器。在三種軟件中,它的繪圖命令的句法是最簡單的,功能卻最強大。圖形質(zhì)量也很好,可以達到出版的要求。另外,這些圖形很好的發(fā)揮了補充統(tǒng)計分析的功能,例如,許多命令可以簡化回歸判別過程中散點圖的制作。

  總結。Stata較好地實現(xiàn)了使用簡便和功能強大兩者的結合。盡管其簡單易學,它在數(shù)據(jù)管理和許多前沿統(tǒng)計方法中的喊指功能還是非常強大的。用戶可以很容易的下載到別人已有的哪模程序,也可以自己去編寫,并使之與Stata緊密結合。

  SPSS

  一般用法。SPSS非常容易使用,故最為初學者所接受。它有一個可以點擊的交互界面,能夠使用下拉菜單來選擇所需要執(zhí)行的命令。它也有一個通過拷貝和粘貼的方法來學習其“句法”語言,但是這些句法通常非常復雜而且不是很直觀。

  數(shù)據(jù)管理。SPSS有一個類似于Excel的界面友好的數(shù)據(jù)編輯器,可以用來輸入和定義數(shù)據(jù)(缺失值,數(shù)值標簽等等)。它不是功能很強的數(shù)據(jù)管理工具(盡管SPS 11版增加了一些增大數(shù)據(jù)文件的命令,其效果有限)。SPSS也主要用于對一個文件進行操作,難以勝任同時處理多個文件。它的數(shù)據(jù)文件有4096個變量,記錄的數(shù)量則是由你的磁盤空間來限定。

  統(tǒng)計分析。SPSS也能夠進行大多數(shù)統(tǒng)計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析)。它的優(yōu)勢在于方差分析(SPSS能完成多種特殊效應的檢驗)和多變量分析(多元方差分析,因子分析,判別分析等),SPSS11.5版還新增了混合模型分析的功能。其缺點是沒有穩(wěn)健方法(無法完成穩(wěn)健回歸或得到穩(wěn)健標準誤),缺乏調(diào)查數(shù)據(jù)分析(SPSS12版增加了完成部分過程的模塊)。

  繪圖功能。SPSS繪圖的交互界面非常簡單,一旦你繪出圖形,你可以根據(jù)需要通過點擊來修改。這種圖形質(zhì)量極佳,還能粘貼到其他文件中(Word 文檔或Powerpoint等)。SPSS也有用于繪圖的編程語句,但是無法產(chǎn)生交互界面作圖的一些效果。這種語句比Stata語句難,但比SAS語句簡單(功能稍遜)。

  總結。SPSS致力于簡便易行(其口號是“真正統(tǒng)計,確實簡單”),并且取得了成功。但是如果你是高級用戶,隨著時間推移你會對它喪失興趣。SPSS是制圖方面的強手,由于缺少穩(wěn)健和調(diào)查的方法,處理前沿的統(tǒng)計過程是其弱項。

  總體評價

  每個軟件都有其獨到之處,也難免有其軟肋所在??偟膩碚f,SAS,Stata和SPSS是能夠用于多種統(tǒng)計分析的一組工具。通過Stat/Transfer可以在數(shù)秒或數(shù)分鐘內(nèi)實現(xiàn)不同數(shù)據(jù)文件的轉(zhuǎn)換。因此,可以根據(jù)你所處理問題的性質(zhì)來選擇不同的軟件。舉例來說,如果你想通過混合模型來進行分析,你可以選擇SAS;進行l(wèi)ogistic回歸則選擇Stata;若是要進行方差分析,更佳的選擇當然是SPSS。假如你經(jīng)常從事統(tǒng)計分析,強烈建議您把上述軟件收集到你的工具包以便于數(shù)據(jù)處理。

我推薦一些常用的大數(shù)模叢山據(jù)分析工具

1.專業(yè)的大數(shù)據(jù)分析工具

2.各種Python數(shù)據(jù)可視化第三方庫

3.其它語言的數(shù)據(jù)旦中可視化框架

一、專業(yè)的大數(shù)據(jù)分析工具

1、FineReport

FineReport是一款純Java編寫的、集數(shù)據(jù)展示(報表)和數(shù)據(jù)錄入(表單)功能于一身的企業(yè)級web報表工具,只需要簡單的拖拽操作便可以設計復雜的中國式報表,搭建數(shù)據(jù)決策分析系統(tǒng)。

2、FineBI

FineBI是新一代自助大數(shù)據(jù)分析的商業(yè)智能產(chǎn)品,提供了從數(shù)據(jù)準備、自助數(shù)據(jù)處理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化于一體的完整解決方案,也是我比較推崇的可視化工具之一。

FineBI的使用感同Tableau類似,都主張可視化的探索性分析,有點像加強版的數(shù)據(jù)透視表。上手簡單,可視化庫豐富??梢猿洚敂?shù)據(jù)報表的門戶,也可以充當各業(yè)務分析的平臺。

二、Python的數(shù)據(jù)可視化第三方庫

Python正慢慢地成為數(shù)據(jù)分析、數(shù)據(jù)挖掘領域的主流語言之一。在Python的生態(tài)里,很多開發(fā)者們提供了非常豐富的、用于各種場景的數(shù)據(jù)可視化第三方庫。這些第三方庫可以讓我們結合Python語言繪制出漂亮的圖表。

1、pyecharts

Echarts(下面會提到)是一個開源免費的javascript數(shù)據(jù)可視化庫,它讓我們可以輕松地鄭帶繪制專業(yè)的商業(yè)數(shù)據(jù)圖表。當Python遇上了Echarts,pyecharts便誕生了,它是由chenjiandongx等一群開發(fā)者維護的Echarts Python接口,讓我們可以通過Python語言繪制出各種Echarts圖表。

2、Bokeh

Bokeh是一款基于Python的交互式數(shù)據(jù)可視化工具,它提供了優(yōu)雅簡潔的方法來繪制各種各樣的圖形,可以高性能的可視化大型數(shù)據(jù)集以及流數(shù)據(jù),幫助我們制作交互式圖表、可視化儀表板等。

三、其他數(shù)據(jù)可視化工具

1、Echarts

前面說過了,Echarts是一個開源免費的javascript數(shù)據(jù)可視化庫,它讓我們可以輕松地繪制專業(yè)的商業(yè)數(shù)據(jù)圖表。

大家都知道去年春節(jié)以及近期央視大規(guī)劃報道的百度大數(shù)據(jù)產(chǎn)品,如百度遷徙、百度司南、百度大數(shù)據(jù)預測等等,這些產(chǎn)品的數(shù)據(jù)可視化均是通過ECharts來實現(xiàn)的。

2、D3

D3(Data Driven Documents)是支持SVG渲染的另一種JavaScript庫。但是D3能夠提供大量線性圖和條形圖之外的復雜圖表樣式,例如Voronoi圖、樹形圖、圓形集群和單詞云等。

數(shù)據(jù)分析再怎么說也是一個專業(yè)的領域,沒有數(shù)學、統(tǒng)計學、數(shù)據(jù)庫這些知識的支撐,對于我們這些市場、業(yè)務的人員來說,難度真的不是一點點。從國外一線大牌到國內(nèi)宣傳造勢強大的品牌,我們基本試用了一個遍,總結一句話“人人都是數(shù)據(jù)分析師”這個坑實在太大,所有的數(shù)據(jù)分析工具知早無論宣傳怎樣,都有一定的學習成本,尤其是要深入業(yè)務實際。今天就我們用過的幾款工具簡單總結一下,與大家分享。

1、Tableau

這個號稱敏捷BI的扛把子,魔力象限常年位于領導者象限,界面清爽、功能確實很強大,實至名歸。將數(shù)據(jù)拖入相關區(qū)域,自動出圖,圖形展示豐富,交互性較好。圖形自定義功能強大,各種圖形參數(shù)配置、自定義設置可以靈活設置,具備較強的數(shù)據(jù)處理和計算能力,可視化分析、交互式分析體驗良好。確實是一款功能強大、全面的數(shù)據(jù)可視化分析工具。新版本也集成了很多高級分析功能,分析更強大。但是基于圖表、儀表板、故事報告的邏輯,完成一個復雜的業(yè)務匯報,大量的圖表、儀表板組合很費事。給領導匯報的PPT需要先一個個截圖,然后再放到PPT里面。作為一個數(shù)據(jù)分析工具是合格的,但是在企業(yè)級這種應用匯報中有點局限。

2、PowerBI

PowerBI是蓋茨大佬推出的工具,我們也興奮的開始試用,確實完全不同于Tableau的操作邏輯,更符合我們普通數(shù)據(jù)分析小白的需求,操作和Excel、PPT類似,功能模塊劃分清晰,上手唯猛緩真的超級快,圖形豐富度和靈活性也是很不錯。但是說實話,畢竟剛推出,系統(tǒng)BUG很多,可視化分析的功能也比較簡單。雖然有很多復雜的數(shù)據(jù)處理功能,但是那是需要有對Excel函數(shù)深入理解應用的基礎的,所以要支持復雜的業(yè)務分析還需要一定基礎。不過版本更新倒是很快,可以等等新版本。

3、Qlik

和Tableau齊名的數(shù)據(jù)可視化分析工具,QlikView在業(yè)界也享有很高的聲譽。不過Qlik Seanse產(chǎn)品系列才在大陸市場有比較大的推廣和應用。真的是一股清流,界面簡潔、流程清晰、操作簡單,交互性較好,真的是一款簡單易用的BI工具。但是不支持深度的數(shù)據(jù)分析,圖形計算和深度計算功能缺失,不能滿足復雜的業(yè)務分析需求。

最后將視線聚焦國內(nèi),目前搜索排名和市場宣傳比較好的也很多,永洪BI、帆軟BI、BDP等。不過經(jīng)過個人感覺整體宣傳大于實際。

4、永洪BI

永洪BI功能方面應該是相對比較完善的,也是拖拽出圖,有點類似Tableau的邏輯,不過功能與Tableau相比還是差的不是一點半點,但是操作難度居然比Tableau還難。預定義的分析功能比較豐富,圖表功能和靈活性較大,但是操作的友好性不足。宣傳擁有高級分析的數(shù)據(jù)挖掘功能,后來發(fā)現(xiàn)就集成了開源的幾個算法,功能非常簡單。而操作過程中大量的彈出框、難以理解含義的配置項,真的讓人很暈。一個簡單的堆積柱圖,就研究了好久,看幫助、看視頻才搞定。哎,只感嘆功能藏得太深,不想給人用啊。

5、帆軟BI

再說號稱FBI的帆軟BI,帆軟報表很多國人都很熟悉,功能確實很不錯,但是BI工具就真的一般指模般了。只能簡單出圖,配合報表工具使用,能讓頁面更好看,但是比起其他的可視化分析、BI工具,功能還是比較簡單,分析的能力不足,功能還是比較簡單。帆軟名氣確實很大,號稱行業(yè)之一,但是主要在報表層面,而數(shù)據(jù)可視化分析方面就比較欠缺了。

6、Tempo

另一款工具,全名叫“Tempo大數(shù)據(jù)分析平臺”,宣傳比較少,2023年Gartner報告發(fā)布后無意中看到的。是一款BS的工具,申請試用也是費盡了波折啊,永洪是不想讓人用,他直接不想賣的節(jié)奏。

之一次試用也是一臉懵逼,不知道該點那!不過抱著破罐子破摔的心態(tài)稍微點了幾下之后,操作居然越來越流暢。也是拖拽式操作,數(shù)據(jù)可視化效果比較豐富,支持很多便捷計算,能滿足常用的業(yè)務分析。最最驚喜的是它還支持可視化報告導出PPT,徹底解決了分析結果輸出的問題。深入了解后,才發(fā)現(xiàn)他們的核心居然是“數(shù)據(jù)挖掘”,算法十分豐富,也是拖拽式操作,我一個文科的分析小白,居然跟著指導和說明做出了一個數(shù)據(jù)預測的挖掘流,簡直不要太驚喜。掌握了Tempo的基本操作邏輯后,居然發(fā)現(xiàn)他的易用性真的很不錯,功能完整性和豐富性也很好。不過沒有宣傳也是有原因的,系統(tǒng)整體配套的介紹、操作說明的完善性上還有待提升。

強烈推薦樓主下載FineBI!從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,慧咐必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注?!肚芭屑冎婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于沖野分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

萬字詳解ETL和數(shù)倉建模

ETL是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load )的簡寫,它是將OLTP系統(tǒng)中的數(shù)據(jù)經(jīng)過抽取,并將不同數(shù)據(jù)源的數(shù)據(jù)進行轉(zhuǎn)換、整合,得出一致性的數(shù)據(jù),然后加載到數(shù)據(jù)倉庫中。簡而言之ETL是完成從 OLTP系統(tǒng)到OLAP系統(tǒng)的過程

數(shù)據(jù)倉庫(Data Warehouse DW)是基于OLTP系統(tǒng)的數(shù)據(jù)源,為了便于多維分析和 多角度展現(xiàn)將其數(shù)據(jù)按特定的模式進行存儲而建立的關系型數(shù)據(jù)庫,它不同于多維數(shù)據(jù)庫,數(shù)據(jù)倉庫中的數(shù)據(jù)是細節(jié)的,集成的,數(shù)據(jù)倉庫是面向主題的,是以 OLAP系統(tǒng)為分析目的。它包括星型架構與雪花型架構,其中星型架構中間為事實表,四周為維度表, 類似星星;雪花型架構中間為事實表,兩邊的維度表可以再有其關聯(lián)子表,而在星型中只允許一張表作為維度表與事實表關聯(lián),雪花型一維度可以有多張表,而星型 不可以。考慮到效率時,星型聚合快,效率高,不過雪花型結構明確,便于與OLTP系統(tǒng)交互。在實際項目中,我們將綜合運用星型架構與雪花型架構。

即 確定數(shù)據(jù)分析或前端展現(xiàn)的某一方面的分析主題,例如我們分析某年某月某一地區(qū)的啤酒銷售情況,就是一個主題。主題要體現(xiàn)某一方面的各分析角度(維度)和統(tǒng) 計數(shù)值型數(shù)據(jù)(量度),確定主題時要綜合考慮,一個主題在數(shù)據(jù)倉庫中即為一個數(shù)據(jù)集市,數(shù)據(jù)集市體現(xiàn)了某一方面的信息,多個數(shù)據(jù)集市構成了數(shù)據(jù)倉庫。

在 確定了主題以后,我們將考慮要分析的技術指標,諸如年銷售額此類,一般為數(shù)值型數(shù)據(jù),或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù),獨立次數(shù)或取更大最小值 等,這樣的數(shù)據(jù)稱之為量度。量度是要統(tǒng)計的指標,必須事先選擇恰當,基于不同的量度可以進行復雜關鍵性能指標(KPI)等的計算。

在 確定了量度之后我們要考慮到該量度的匯總情況臘差殲和不同維度下量度的聚合情況,考慮到量度的聚合程度不同,我們將采用“最小粒度原則”,即將量度的粒度設置 到最小,例如我們將按照時間對銷售額進行匯總,目前的數(shù)據(jù)最小記錄到天,即數(shù)據(jù)庫中記錄了每天的交易額,那么我們不能在ETL時將數(shù)據(jù)進行按月或年匯總, 需要保持到天,以便于后續(xù)對天進行分析。而且我們不必擔心數(shù)據(jù)量輪沖和數(shù)據(jù)沒有提前匯總帶來的問題,因為在后續(xù)的建立CUBE時已經(jīng)將數(shù)據(jù)提前匯總了。

維 度是要分析的各個角度,例如我們希望按照時間,或者按照地區(qū),或者按照產(chǎn)品進行分析,那么這里的時間、地區(qū)、產(chǎn)品就是相應的維度,基于不同的維度我們可 以看到各量度的匯總情況,我們可以基于所有的維度進行交叉分析。這里我們首先要確定維度的層次(Hierarchy)和級別(Level)(圖 四:pic4.jpg),維度的層次是指該維度的所有級別,包括各級別的屬性;維度的級別是指該維度下的成員,例如當建立地區(qū)維度時我們將地區(qū)維度作為一 個級別,層次為省、市、縣三層,考慮到維度表要包含盡量多的信息,所以建立維度時要符合“矮胖原則”,即維度表要盡量寬,盡量包含所有的描述性信息,而不 是統(tǒng)計性的數(shù)據(jù)信息。

還有一種常見的情況,就是父子型維度,該維度一般用于非葉子節(jié)點含有成員等情況,例如公司員工 的維度,在統(tǒng)計員工的工資時,部 門主管的工資不能等于下屬成員工資的簡單相加,必須對該主管的工資單獨統(tǒng)計,然后該主管部門的工資等于下屬員工工資加部門主管的工資,那么在建立員工維度 時,我們需要將員工維度建立成父子型維度,這樣在統(tǒng)計時,主管的工資會自動加上,避免了都是葉子節(jié)點才有數(shù)據(jù)的情況。

另外,在建立維度表時要充 分使用代理鍵,代理鍵是數(shù)值型的ID號碼慶羨,好處是代理鍵唯一標識了每一維度成員信息,便于區(qū)分,更重要的是在聚合時由于數(shù)值型匹 配,JOIN效率高,便于聚合,而且代理鍵對緩慢變化維度有更重要的意義,它起到了標識 歷史 數(shù)據(jù)與新數(shù)據(jù)的作用,在原數(shù)據(jù)主鍵相同的情況下,代理鍵起到了 對新數(shù)據(jù)與 歷史 數(shù)據(jù)非常重要的標識作用。

有時我們也會遇到維度緩慢變化的情況,比如增加了新的產(chǎn)品,或者產(chǎn)品的ID號碼修改了,或者產(chǎn)品增加了一個新的屬性,此時某一維度的成員會隨著新的數(shù)據(jù)的加入而增加新的維度成員,這樣我們要考慮到緩慢變化維度的處理,對于緩慢變化維度,有三種情況:

在確定好事實數(shù)據(jù)和維度后,我們將考慮加載事實表。

在公司的大量數(shù)據(jù)堆積如山時,我們想看看里面究竟是什么,結果發(fā)現(xiàn)里面是一筆筆生產(chǎn)記錄,一筆筆交易記錄… 那么這些記錄是我們將要建立的事實表的原始數(shù)據(jù),即關于某一主題的事實記錄表。

我 們的做法是將原始表與維度表進行關聯(lián),生成事實表(圖六:pic6.jpg)。注意在關聯(lián)時有為空的數(shù)據(jù)時(數(shù)據(jù)源臟),需要使用外連接,連接后我們將 各維度的代理鍵取出放于事實表中,事實表除了各維度代理鍵外,還有各量度數(shù)據(jù),這將來自原始表,事實表中將存在維度代理鍵和各量度,而不應該存在描述性信 息,即符合“瘦高原則”,即要求事實表數(shù)據(jù)條數(shù)盡量多(粒度最?。枋鲂孕畔⒈M量少。

如果考慮到擴展,可以將事實表加一唯一標識列,以為了以后擴展將該事實作為雪花型維度,不過不需要時一般建議不用這樣做。

事 實數(shù)據(jù)表是數(shù)據(jù)倉庫的核心,需要精心維護,在JOIN后將得到事實數(shù)據(jù)表,一般記錄條數(shù)都比較大,我們需要為其設置復合主鍵和索引,以為了數(shù)據(jù)的完整性和 基于數(shù)據(jù)倉庫的查詢性能優(yōu)化,事實數(shù)據(jù)表與維度表一起放于數(shù)據(jù)倉庫中,如果前端需要連接數(shù)據(jù)倉庫進行查詢,我們還需要建立一些相關的中間匯總表或物化視圖,以方便查詢。

在構建數(shù)據(jù)倉庫時,如果數(shù)據(jù)源位于一服務器上,數(shù)據(jù)倉庫在另一 服務器端,考慮到數(shù)據(jù)源Server端訪問頻繁,并且數(shù)據(jù)量大,需要不斷更新,所以可以建立準備區(qū)數(shù)據(jù)庫(圖七:pic7.jpg)。先將數(shù)據(jù)抽取到準備 區(qū)中,然后基于準備區(qū)中的數(shù)據(jù)進行處理,這樣處理的好處是防止了在原OLTP系統(tǒng)中中頻繁訪問,進行數(shù)據(jù)運算或排序等操作。例如我們可以按照天將數(shù)據(jù)抽取 到準備區(qū)中,基于數(shù)據(jù)準備區(qū),我們將進行數(shù)據(jù)的轉(zhuǎn)換,整合,將不同數(shù)據(jù)源的數(shù)據(jù)進行一致性處理。數(shù)據(jù)準備區(qū)中將存在原始抽取表,一些轉(zhuǎn)換中間表和臨時表以 及ETL日志表等。

時間維度對于某一事實主題來說十分重要,因為不同的時間有不同的統(tǒng)計數(shù)據(jù)信息,那么按照時間記錄 的信息將發(fā)揮很重要的作用。在ETL中,時間戳有其特殊的 作用,在上面提到的緩慢變化維度中,我們可以使用時間戳標識維度成員;在記錄數(shù)據(jù)庫和數(shù)據(jù)倉庫的操作時,我們也將使用時間戳標識信息,例如在進行數(shù)據(jù)抽取 時,我們將按照時間戳對OLTP系統(tǒng)中的數(shù)據(jù)進行抽取,比如在午夜0:00取前一天的數(shù)據(jù),我們將按照OLTP系統(tǒng)中的時間戳取GETDATE到 GETDATE減一天,這樣得到前一天數(shù)據(jù)。

在對數(shù)據(jù)進行處理時,難免會發(fā)生數(shù)據(jù)處理錯誤,產(chǎn)生出錯信息,那么我們 如何獲得出錯信息并及時修正呢? 方法是我們使用一張或多張Log日志表,將出錯信息記錄下來,在日志表中我們將記錄每次抽取的條數(shù),處理成功的條數(shù),處理失敗的條數(shù),處理失敗的數(shù)據(jù),處 理時間等等,這樣當數(shù)據(jù)發(fā)生錯誤時,我們很容易發(fā)現(xiàn)問題所在,然后對出錯的數(shù)據(jù)進行修正或重新處理。

在對數(shù)據(jù)倉庫進行 增量更新時必須使用調(diào)度(圖八:pic8.jpg),即對事實數(shù)據(jù)表進行增量更新處理,在使用調(diào)度前要考慮到事實數(shù)據(jù)量,需要多長時間更 新一次,比如希望按天進行查看,那么我們更好按天進行抽取,如果數(shù)據(jù)量不大,可以按照月或半年對數(shù)據(jù)進行更新,如果有緩慢變化維度情況,調(diào)度時需要考慮到 維度表更新情況,在更新事實數(shù)據(jù)表之前要先更新維度表。

調(diào)度是數(shù)據(jù)倉庫的關鍵環(huán)節(jié),要考慮縝密,在ETL的流程搭建好后,要定期對其運行,所以 調(diào)度是執(zhí)行ETL流程的關鍵步驟,每一次調(diào)度除了寫入Log日志表 的數(shù)據(jù)處理信息外,還要使用發(fā)送Email或報警信息等,這樣也方便的技術人員對ETL流程的把握,增強了安全性和數(shù)據(jù)處理的準確性。

ETL構建數(shù)據(jù)倉庫需要簡單的五步,掌握了這五步的方法我們將構建一個強大的數(shù)據(jù)倉庫,不過每一步都有很深的需要研究與挖掘,尤其在實際項目中,我們要綜合考慮,例如如果數(shù)據(jù)源的臟數(shù)據(jù)很多,在搭建數(shù)據(jù)倉庫之前我們首先要進行數(shù)據(jù)清洗,以剔除掉不需要的信息和臟數(shù)據(jù)。

總之,ETL是數(shù)據(jù)倉庫的核心,掌握了ETL構建數(shù)據(jù)倉庫的五步法,就掌握了搭建數(shù)據(jù)倉庫的根本方法。不過,我們不能教條,基于不同的項目,我們還將要進行 具體分析,如父子型維度和緩慢變化維度的運用等。在數(shù)據(jù)倉庫構建中,ETL關系到整個項目的數(shù)據(jù)質(zhì)量,所以馬虎不得,必須將其擺到重要位置,將ETL這一 大廈根基筑牢。

如果ETL和SQL來說,肯定是SQL效率高的多。但是雙方各有優(yōu)勢,先說ETL,ETL主要面向的是建立數(shù)據(jù)倉庫來使用的。ETL更偏向數(shù)據(jù)清洗,多數(shù)據(jù)源數(shù)據(jù)整合,獲取增量,轉(zhuǎn)換加載到數(shù)據(jù)倉庫所使用的工具。比如我有兩個數(shù)據(jù)源,一個是數(shù)據(jù)庫的表,另外一個是excel數(shù)據(jù),而我需要合并這兩個數(shù)據(jù),通常這種東西在SQL語句中比較難實現(xiàn)。但是ETL卻有很多現(xiàn)成的組件和驅(qū)動,幾個組件就搞定了。還有比如跨服務器,并且服務器之間不能建立連接的數(shù)據(jù)源,比如我們公司系統(tǒng)分為一期和二期,存放的數(shù)據(jù)庫是不同的,數(shù)據(jù)結構也不相同,數(shù)據(jù)庫之間也不能建立連接,這種情況下,ETL就顯得尤為重要和突出。通過固定的抽取,轉(zhuǎn)換,加載到數(shù)據(jù)倉庫中,即可很容易實現(xiàn)。

那么SQL呢?SQL事實上只是固定的腳本語言,但是執(zhí)行效率高,速度快。不過靈活性不高,很難跨服務器整合數(shù)據(jù)。所以SQL更適合在固定數(shù)據(jù)庫中執(zhí)行大范圍的查詢和數(shù)據(jù)更改,由于腳本語言可以隨便編寫,所以在固定數(shù)據(jù)庫中能夠?qū)崿F(xiàn)的功能就相當強大,不像ETL中功能只能受組件限制,組件有什么功能,才能實現(xiàn)什么功能。

所以具體我們在什么時候使用ETL和SQL就很明顯了,當我們需要多數(shù)據(jù)源整合建立數(shù)據(jù)倉庫,并進行數(shù)據(jù)分析的時候,我們使用ETL。如果是固定單一數(shù)據(jù)庫的數(shù)據(jù)層次處理,我們就使用SQL。當然,ETL也是離不開SQL的。

主要有三大主流工具,分別是Ascential公司的Datastage、Informatica公司的Powercenter、NCR Teradata公司的ETL Automation.還有其他開源工具,如PDI(Kettle)等。

DW系統(tǒng)以事實發(fā)生數(shù)據(jù)為基礎,自產(chǎn)數(shù)據(jù)較少。

一個企業(yè)往往包含多個業(yè)務系統(tǒng),均可能成為DW數(shù)據(jù)源。

業(yè)務系統(tǒng)數(shù)據(jù)質(zhì)量良莠不齊,必須學會去偽存真。

業(yè)務系統(tǒng)數(shù)據(jù)紛繁復雜,要整合進數(shù)據(jù)模型。

源數(shù)據(jù)之間關系也紛繁復雜,源數(shù)據(jù)在加工進DW系統(tǒng)時,有些必須遵照一定的先后次序關系;

流水事件表:此類源表用于記錄交易等動作的發(fā)生,在源系統(tǒng)中會新增、大部分不會修改和刪除,少量表存在刪除情況。如定期存款登記簿;

常規(guī)狀態(tài)表:此類源表用于記錄數(shù)據(jù)信息的狀態(tài)。在源系統(tǒng)中會新增、修改,也存在刪除的情況。如客戶信息表;

代碼參數(shù)表:此類源表用于記錄源系統(tǒng)中使用到的數(shù)據(jù)代碼和參數(shù);

數(shù)據(jù)文件大多數(shù)以1天為固定的周期從源系統(tǒng)加載到數(shù)據(jù)倉庫。數(shù)據(jù)文件包含增量,全量以及待刪除的增量。

增量數(shù)據(jù)文件:數(shù)據(jù)文件的內(nèi)容為數(shù)據(jù)表的增量信息,包含表內(nèi)新增及修改的記錄。

全量數(shù)據(jù)文件:數(shù)據(jù)文件的內(nèi)容為數(shù)據(jù)表的全量信息,包含表內(nèi)的所有數(shù)據(jù)。

帶刪除的增量:數(shù)據(jù)文件的內(nèi)容為數(shù)據(jù)表的增量信息,包含表內(nèi)新增、修改及刪除的記錄,通常刪除的記錄以字段DEL_IND=’D’標識該記錄。

可劃分為: 歷史 拉鏈算法、追加算法(事件表)、Upsert算法(主表)及全刪全加算法(參數(shù)表);

歷史 拉鏈:根據(jù)業(yè)務分析要求,對數(shù)據(jù)變化都要記錄,需要基于日期的連續(xù) 歷史 軌跡;

追加(事件表):根據(jù)業(yè)務分析要求,對數(shù)據(jù)變化都要記錄,不需要基于日期的連續(xù) 歷史 軌跡;

Upsert(主表):根據(jù)業(yè)務分析要求,對數(shù)據(jù)變化不需要都要記錄,當前數(shù)據(jù)對 歷史 數(shù)據(jù)有影響;

全刪全加算法(參數(shù)表):根據(jù)業(yè)務分析要求,對數(shù)據(jù)變化不需要都要記錄,當前數(shù)據(jù)對 歷史 數(shù)據(jù)無影響;

所謂拉鏈,就是記錄 歷史 ,記錄一個事務從開始,一直到當前狀態(tài)的所有變化信息(參數(shù)新增開始結束日期);

一般用于事件表,事件之間相對獨立,不存在對 歷史 信息進行更新;

是update和insert組合體,一般用于對 歷史 信息變化不需要進行跟蹤保留、只需其最新狀態(tài)且數(shù)據(jù)量有一定規(guī)模的表,如客戶資料表;

一般用于數(shù)據(jù)量不大的參數(shù)表,把 歷史 數(shù)據(jù)全部刪除,然后重新全量加載;

歷史 拉鏈,Upsert,Append,全刪全加;加載性能:全刪全加,Append,Upsert, 歷史 拉鏈;

APPEND算法,常規(guī)拉鏈算法,全量帶刪除拉鏈算法;

APPEND算法,MERGE算法,常規(guī)拉鏈算法,基于增量數(shù)據(jù)的刪除拉鏈算法,基于全量數(shù)據(jù)的刪除拉鏈算法,經(jīng)濟型常規(guī)拉鏈算法,經(jīng)濟型基于增量數(shù)據(jù)的刪除拉鏈算法,經(jīng)濟型基于全量數(shù)據(jù)的刪除拉鏈算法,PK_NOT_IN_APPEND算法,源日期字段自拉鏈算法;

此算法通常用于流水事件表,適合這類算法的源表在源系統(tǒng)中不會更新和刪除,而只會發(fā)生一筆添加一筆,所以只需每天將交易日期為當日最新數(shù)據(jù)取過來直接附加到目標表即可,此類表在近源模型層的字段與技術緩沖層、源系統(tǒng)表基本上完全一致,不會額外增加物理化處理字段,使用時也與源系統(tǒng)表的查詢方式相同;

此算法通常用于無刪除操作的常規(guī)狀態(tài)表,適合這類算法的源表在源系統(tǒng)中會新增、修改,但不刪除,所以需每天獲取當日末最新數(shù)據(jù)(增量或全增量均可),先找出真正的增量數(shù)據(jù)(新增和修改),用它們將目標表中屬性發(fā)生修改的開鏈數(shù)據(jù)(有效數(shù)據(jù))進行關鏈操作(即END_DT關閉到當前業(yè)務日期),然后再將最新的增量數(shù)據(jù)作為開鏈數(shù)據(jù)插入到目標表即可。

此類表再近源模型層比技術緩沖層、源系統(tǒng)的相應表額外增加兩個物理化處理字段START_DT(開始日期)和END_DT(結束日期),使用時需要先選定視覺日期,通過START_DT和END_DT去卡視覺日期,即START_DT’視覺日期’;

此算法通常用于有刪除操作的常規(guī)狀態(tài)類表,并且要求全量的數(shù)據(jù)文件,用以對比出刪除增量;適合這類算法的源表在源系統(tǒng)中會新增,修改,刪除,每天將當日末最新全量數(shù)據(jù)取過來外,分別找出真正的增量數(shù)據(jù)(新增,修改)和刪除增量數(shù)據(jù),用它們將目標表中屬性發(fā)生修改的開鏈數(shù)據(jù)(有效數(shù)據(jù))進行關鏈操作(即END_DT關閉到當前業(yè)務日期),然后再將最新增量數(shù)據(jù)中真正的增量及刪除數(shù)據(jù)作為開鏈數(shù)據(jù)插入到目標表即可,注意刪除記錄的刪除標志DEL_IND會設置為‘D’;

此類表在近源模型層比技術緩沖層,源系統(tǒng)的相應表額外增加三個物理化處理字段START_DT(開始日期),ENT_DT(結束日期),DEL_IND(刪除標準)。使用方式分兩類:一時一般查詢使用,此時需要先選定視角日期,通過START_DT和END_DT去卡視角日期,即START_DT‘視角日期’,同時加上條件DEL_IND ‘D’;另一種是下載或獲取當日增量數(shù)據(jù),此時就是需要START_DT’視角日期’ 一個條件即可,不需要加DEL_IND ‘D’的條件。

此算法通常用于流水事件表,適合這類算法的源表在源系統(tǒng)中不會更新和刪除,而只會發(fā)生一筆添加一筆,所以只需每天將交易日期為當日的最新數(shù)據(jù)取過來直接附加到目標表即可;

通常建一張名為VT_NEW_編號的臨時表,用于將各組當日最新數(shù)據(jù)轉(zhuǎn)換加到VT_NEW_編號后,再一次附加到最終目標表;

此算法通常用于無刪除操作的常規(guī)狀態(tài)表,一般是無需保留 歷史 而只保留當前最新狀態(tài)的表,適合這類算法的源表在源系統(tǒng)中會新增,修改,但不刪除,所以需獲取當日末最新數(shù)據(jù)(增量或全量均可),用于MERGE IN或UPSERT目標表;為了效率及識別真正增量的要求,通常先識別出真正的增量數(shù)據(jù)(新增及修改數(shù)據(jù)),然后再用這些真正的增量數(shù)據(jù)向目標表進行MERGE INTO操作;

通常建兩張臨時表,一個名為VT_NEW_編號,用于將各組當日最新數(shù)據(jù)轉(zhuǎn)換加到VT_NEW_編號;另一張名為VT_INC_編號,將VT_NEW_編號與目標表中昨日的數(shù)據(jù)進行對比后找出真正的增量數(shù)據(jù)(新增和修改)放入VT_INC_編號,然后再用VT_INC_編號對最終目標表進行MERGE INTO或UPSERT。

此算法通常用于無刪除操作的常規(guī)狀態(tài)表,適合這類算法的源表在源系統(tǒng)中會新增、修改,但不刪除,所以需每天獲取當日末最新數(shù)據(jù)(增量或全增量均可),先找出真正的增量數(shù)據(jù)(新增和修改),用它們將目標表中屬性發(fā)生修改的開鏈數(shù)據(jù)(有效數(shù)據(jù))進行關鏈操作(即END_DT關閉到當前業(yè)務日期),然后再將最新增量數(shù)據(jù)作為開鏈數(shù)據(jù)插入到目標表即可;

通常建兩張臨時表,一個名為VT_NEW_編號,用于將各組當日最新數(shù)據(jù)轉(zhuǎn)換加到VT_NEW_編號;另一張名為VT_INC_編號,將VT_NEW_編號與目標表中昨日的數(shù)據(jù)進行對比后找出真正的增量數(shù)據(jù)(新增和修改)放入VT_INC_編號,然后再將最終目標表的開鏈數(shù)據(jù)中的PK出現(xiàn)在VT_INT_編號中進行關鏈處理,然后將VT_INC_編號中的所有數(shù)據(jù)作為開鏈數(shù)據(jù)插入最終目標表即可。

此算法通常用于有刪除操作的常規(guī)狀態(tài)表,并且要求刪除數(shù)據(jù)是以DEL_IND=’D’刪除增量的形式提供;適合這類算法的源表再源系統(tǒng)中會新增、修改、刪除,除每天獲取當日末最新數(shù)據(jù)(增量或全量均可)外,還要獲取當日刪除的數(shù)據(jù),根據(jù)找出的真正增量數(shù)據(jù)(新增和修改)以及刪除增量數(shù)據(jù),用它們將目標表中屬性發(fā)生修改的開鏈數(shù)據(jù)(有效數(shù)據(jù))進行關鏈操作(即END_DT關閉到當前業(yè)務時間),然后再將增量(不含刪除數(shù)據(jù))作為開鏈數(shù)據(jù)插入到目標表中即可;

通常建三張臨時表,一個名為VT_NEW_編號,用于將各組當日最新數(shù)據(jù) (不含刪除數(shù)據(jù))轉(zhuǎn)換加載到VT_NEW_編號;第二張表名為VT_INC_編號,用VT_NEW_編號與目標表中的昨日的數(shù)據(jù)進行對比后找出真正的增量數(shù)據(jù)放入VT_INC_編號;第三張表名為VT_DEL_編號,將刪除增量數(shù)據(jù)轉(zhuǎn)換加載到VT_DEL_編號;最后再將最終目標表的開鏈數(shù)據(jù)中PK出現(xiàn)在VT_INC_編號或VT_DEL_編號中的進行關鏈處理,最后將VT_INC_編號中的所有數(shù)據(jù)作為開鏈數(shù)據(jù)插入最終目標表即可;

此算法通常用于有刪除操作的常規(guī)狀態(tài)表,并且要求提供全量數(shù)據(jù),用以對比出刪除增量;適合這類算法的源表在源系統(tǒng)中會新增、修改、每天將當日末的最新全量數(shù)據(jù)取過來外,分別找出真正的增量數(shù)據(jù)(新增、修改)和刪除增量數(shù)據(jù),用它們將目標表中屬性發(fā)生修改的開鏈數(shù)據(jù)(有效記錄)進行關鏈操作(即END_DT關閉到當前業(yè)務時間),然后再將最新數(shù)據(jù)中真正的增量數(shù)據(jù)(不含刪除數(shù)據(jù))作為開鏈數(shù)據(jù)插入到目標表即可;

通常建兩張臨時表,一個名為VT_NEW_編號,用于將各組當日最新全量數(shù)據(jù)轉(zhuǎn)換到VT_NEW_編號;另一張表名為VT_INC_編號,將VT_NEW_編號與目標表中昨日的數(shù)據(jù)進行對比后找出真正的增量數(shù)據(jù)(新增、修改)和刪除增量數(shù)據(jù)放入VT_INC_編號,注意將其中的刪除增量數(shù)據(jù)的END_DT置以最小日期(借用);最后再將最終目標表的開鏈數(shù)據(jù)中PK出現(xiàn)再VT_INC_編號或VT_DEL_編號中的進行關鏈處理,然后將VT_INC_編號中所有的END_DT不等于最小日期數(shù)據(jù)(非刪除數(shù)據(jù))作為開鏈數(shù)據(jù)插入最終目標表即可;

此算法基本等同與常規(guī)拉算法,只是在最后一步只將屬性非空即非0的記錄才作為開鏈數(shù)據(jù)插入目標表;

此算法基本等同于基于增量數(shù)據(jù)刪除拉鏈算法,只是在最后一步只將屬性非空及非0的記錄才作為開鏈數(shù)據(jù)插入目標表;

此算法基本等同于基于全量數(shù)據(jù)刪除拉鏈算法,只是在最后一步只將屬性非空及非0的記錄才作為開鏈數(shù)據(jù)插入目標表;

此算法是對每一組只將PK在當前VT_NEW_編號表中未出現(xiàn)的數(shù)據(jù)再插入VT_NEW_編號表,最后再將PK未出現(xiàn)在目標表中的數(shù)據(jù)插入目標表,以保證只進那些PK未進過的數(shù)據(jù);

此算法是源表中有日期字段標識當前記錄的生效日期,本算法通過對同主鍵記錄按這個生效日期排序后,一次首尾相連行形成一條自然拉鏈的算法

關于teradata數(shù)據(jù)庫行轉(zhuǎn)列函數(shù)的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。

成都創(chuàng)新互聯(lián)建站主營:成都網(wǎng)站建設、網(wǎng)站維護、網(wǎng)站改版的網(wǎng)站建設公司,提供成都網(wǎng)站制作成都網(wǎng)站建設、成都網(wǎng)站推廣、成都網(wǎng)站優(yōu)化seo、響應式移動網(wǎng)站開發(fā)制作等網(wǎng)站服務。


分享名稱:Teradata數(shù)據(jù)庫行轉(zhuǎn)列函數(shù)簡介(teradata數(shù)據(jù)庫行轉(zhuǎn)列函數(shù))
標題來源:http://www.dlmjj.cn/article/ccidoge.html