新聞中心
我們可以不再使用ETL了嗎?
說到ETL,很多開發(fā)伙伴可能會有些陌生,我也是在近幾年的工作過程中才接觸到ETL的,現(xiàn)在的項目是比較依賴于ETL,可以說是項目中重要的一部分。

創(chuàng)新互聯(lián)是專業(yè)的宜豐網(wǎng)站建設(shè)公司,宜豐接單;提供網(wǎng)站制作、成都網(wǎng)站制作,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進行宜豐網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!
先看一看ETL是做什么用的:ETL是將各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),通過抽取、清洗、轉(zhuǎn)換之后,加載到數(shù)據(jù)倉庫的過程;ETL可以將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起。完整的ETL功能有很多(ETL是三個三次的縮寫...),我只從我實際使用的場景出發(fā),說明我對ETL的理解和實際應(yīng)用。
我接觸過的項目,使用ETL工具的場景有這個幾種:
在公司建設(shè)的初期,業(yè)務(wù)比較少,系統(tǒng)也比較少,一臺數(shù)據(jù)庫就搞定了;
隨著公司業(yè)務(wù)的增加,業(yè)務(wù)系統(tǒng)被拆成很多系統(tǒng);
隨著數(shù)據(jù)量的繼續(xù)增加,單個系統(tǒng)的數(shù)據(jù)增加到一定程度的時候,也做了分庫分表;
這時候領(lǐng)導(dǎo)、業(yè)務(wù)人員在用數(shù)據(jù)做分析的時候,數(shù)據(jù)來源可能是多個系統(tǒng)的多張表,這時候企圖通過一個復(fù)雜的SQL跑出來結(jié)果就很困難了;通常公司會建立一個數(shù)據(jù)倉庫,通過ETL工具把數(shù)據(jù)抽取到數(shù)據(jù)倉庫中,再做數(shù)據(jù)的擬合和展示。
目前來說是不行的,ETL任然是大數(shù)據(jù)時代下數(shù)據(jù)遷移不可缺少的
首先說一下什么是ETL,ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。也就是說幾乎所有的數(shù)據(jù)的移動都需要ETL的參與!
目前用到的ETL工具常見的有Datastage,informatica,kettle三種,前兩者是收費的,并且占據(jù)了大多數(shù)國內(nèi)市場,而kettle是來源免費的!但是在大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。所以很多公司尤其是金融機構(gòu)選Informatica 與Datastage。但是kettle由于是開源的所以有很強的擴展性。
數(shù)據(jù)要想有價值,就必須把它進行分析,挖掘出來它潛藏的價值,人們?nèi)粘;顒赢a(chǎn)生的數(shù)據(jù)一般是放在業(yè)務(wù)系統(tǒng)中,而在業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)是不能直接進行分析處理的,這個時候我就得把這些數(shù)據(jù)搬運到一個倉庫里,再進行分析!也就是所說的數(shù)據(jù)倉庫,在而這個數(shù)據(jù)的搬運工就是ETL,在搬運的過程中我們還要做一些初步的清洗,去掉一些無用的不全的數(shù)據(jù),這也是ETL的功能!最后我們那這些處理過的數(shù)據(jù)進行商業(yè)分析!這就是一個ETL的過程。
在數(shù)據(jù)就是價值的今天我們更加離不開ETL,當(dāng)然這個過程也在不斷的改進,運用也越來越智能越來越方便
ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù), ETL是BI(商業(yè)智能)項目重要的一個環(huán)節(jié)。通常情況下,在BI項目中ETL會花掉整個項目至少1/3的時間,ETL設(shè)計的好壞直接關(guān)接到BI項目的成敗。
ETL的設(shè)計分三部分:
- 數(shù)據(jù)抽?。?strong>Extract)
- 數(shù)據(jù)的清洗轉(zhuǎn)換(Transform)
- 數(shù)據(jù)的加載(Load)
目前常用的ETL工具有:
- SSIS
- Kettle
- DataStage
- Informatica
Datastage和Informatica是收費的,并且占據(jù)了大多數(shù)國內(nèi)市場,而Kettle是來源免費的。但是在大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。所以很多公司尤其是金融機構(gòu)選Informatica與Datastage。但是kettle由于是開源的所以有很強的擴展性。所以在這個巨大的市場條件下,基本是不會被淘汰的,除非出現(xiàn)更加劃時代的產(chǎn)物。
不可以。
哈哈,是不是離你的預(yù)期答案差很多?
先說說為什么會有不想再使用ETL的想法?
因為盡管在ETL上花費了大量時間和金錢,公司仍然會遇到很大的問題:比如數(shù)據(jù)不準(zhǔn)確、查詢不夠徹底等。
那這些問題現(xiàn)在有辦法解決嗎?
暫時是沒有的,ETL還是得用,在具有成熟業(yè)務(wù)的公司里不可或缺,但這并不代表這是一個好崗位。
etl工程師主要進行數(shù)據(jù)采集、轉(zhuǎn)換等方面的數(shù)據(jù)預(yù)處理,也稱數(shù)據(jù)清洗。這個工作打個不恰當(dāng)?shù)谋扔鳎窍床斯ざ皇菑N師,所以和工作年限和年齡無關(guān),和自己的發(fā)展規(guī)劃相關(guān)。
所以做了幾年之后,發(fā)展的空間不夠大,但是養(yǎng)活自己是沒有問題的。
到此,以上就是小編對于mongodb 重啟的問題就介紹到這了,希望這1點解答對大家有用。
本文題目:我們可以不再使用ETL了嗎?(windows中mongodb重啟的命令是什么)
文章起源:http://www.dlmjj.cn/article/ccssehp.html


咨詢
建站咨詢
