綜合知識

當前位置 /首頁/綜合知識 > /列表

etl怎麼用

1.ETL的工具應用

ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL……

etl怎麼用

開源的工具有eclipse的etl插件:cloveretl

數據集成:快速實現ETL

ETL的質量問題具體表現為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。而影響質量問題的原因有很多,由系統集成和歷史數據造成的原因主要包括:業務系統不同時期系統之間數據模型不一致;業務系統不同時期業務過程有變化;舊系統模塊在運營、人事、財務、辦公系統等相關信息的不一致;遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。

實現ETL,首先要實現ETL轉換的過程。體現為以下幾個方面:

1、空值處理:可捕獲字段空值,進行加載或替換為其他含義數據,並可根據字段空值實現分流加載到不同目標庫。

2、規範化數據格式:可實現字段格式約束定義,對於數據源中時間、數值、字符等數據,可自定義加載格式。

3、拆分數據:依據業務需求對字段可進行分解。例,主叫號 861082585313-8148,可進行區域碼和電話號碼分解。

4、驗證數據正確性:可利用Lookup及拆分功能進行數據驗證。例如,主叫號861082585313-8148,進行區域碼和電話號碼分解後,可利用Lookup返回主叫網關或交換機記載的主叫地區,進行數據驗證。

5、數據替換:對於因業務因素,可實現無效數據、缺失數據的替換。

6、Lookup:查獲丟失數據 Lookup實現子查詢,並返回用其他手段獲取的缺失字段,保證字段完整性。

7、建立ETL過程的主外鍵約束:對無依賴性的非法數據,可替換或導出到錯誤數據文件中,保證主鍵唯一記錄的加載。

2.什麼是ETL

隨着信息技術爆炸性發展,智能終端,智能穿戴設備,無人駕駛汽車等等,都宣告大數據的時代已經來臨!學習成長為一名處理數據的BI工程師是實現夢想的絕佳途徑!

如何入門呢?首先要有數據庫基礎,選擇一門主流的數據庫(ORACLE,DB2,SQLSERVER)學習基本的SQL開發,掌握存儲過程,函數,包,SQL調優等。其次就要會一個主流的BI工具,常見後台ETL工具如:DATASTAGE,INFORMATICA,KETTLE等,主流前台報表工具如BIEE,COGNOS,BO,當然也有國產的像潤乾等。之後就是要了解BI中常用的概念如:事實表,維表,切片,上鑽下取,緩慢變化維,代理鍵等。

熟練掌握這些工具,就要在項目中去大量的練習啦,只有通過項目的實踐才能深刻體會BI的這些概念及其精髓。之後有了幾年的經驗就可以向某個行業去深入學習

業務知識做ETL顧問,或者向數據挖掘方向深究!這個過程自學的話要很久,要想在很短的時間入門,找家有實力的機構去通過項目實踐就很有必要啦。國內專注

這塊的有深圳的融通學苑,北京的思數,你可根據自身情況作出選擇。

3.ETL學習筆記之一:ETL是什麼

對於數據倉庫以及ETL的知識,我基本上是個門外漢。一切都得從頭開始,記個筆記,方便自已瞭解學習進度。

首先,我們來了解最基本的定義:

嗯,也有人將ETL簡單稱為數據抽取。至少在未學習之前,領導告訴我的是,你需要做一個數據抽取的工具。

其實呢,抽取是ETL中的關鍵環節,顧名思義,也就將數據從不同的數據源中抓取(複製)出來。

太簡單了!上面的解釋無首無尾,有點象能讓你吃飽的第七個燒餅,

仔細一想,抽取是不可能單獨存在,我們需要將與之關聯的一些其它環節拿出來。

於是,得到ETL的定義:

將數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。

好的,既然到了這一個層次,我們完全會進一步展開聯想,引出上面這個抽象事件的前因後果,

抽取源:大多數情況下,可以認為是關係數據庫,專業一點,就是事務處理系統(OLTP)。當然,廣義一點,可能會是其它數據庫或者是文件系統。

目的地:OK,我們希望是數據倉庫。數據倉庫是啥?在學習之前,它對我來説是個抽象的怪物,看過一些簡單的資料之後,才瞭解這個怪物一點都不怪。堆積用來分析的數據的倉庫。是了,是用來分析的,於是,它區別於OLTP中的數據存儲。

在我看來,有兩個原因。

一:性能 將需要分析的數據從OLTP中抽離出來,使分析和事務處理不衝突。咦?這不是數據倉庫的效果嗎?是了,

數據倉庫,大多數情況下,也就是通過ETL工具來生成地。

二:控制 用户可以完全控制從OLTP中抽離出來的數據,擁有了數據,也就擁有了一切。

嗯,OLAP分析,數據挖掘等等等……。

最後,總結一下,

嗯,時不我待,我沒有辦法一切從頭開始,

鴨子要變成一盤菜,並不是舉手將之置於油鍋之勞。

4.ETL什麼意思

ETL,Extraction-Transformation-Loading的縮寫,中文名稱為數據抽取、轉換和加載。

一般隨着業務的發展擴張,產線也越來越多,產生的數據也越來越多,這些數據的收集方式、原始數據格式、數據量、存儲要求、使用場景等方面有很大的差異。

數據抽取是指把ODS源數據抽取到DW中,數據拉取,清洗完之後,就需要展示了。一般是把清洗好的數據加載到mysql中,然後在各系統中使用,或者使用Tableau直接給相關人員展示。元數據管理系統對於數據倉庫來説是必須的,並且相關人員必須定時維護,如果元數據和數據倉庫中的變動不同步,那麼元數據系統就形同虛設。

擴展資料

ETL所描述的過程,一般常見的作法包含ETL或是ELT,並且混合使用。通常愈大量的數據、複雜的轉換邏輯、目的端為較強運算能力的數據庫,愈偏向使用ELT,以便運用目的端數據庫的平行處理能力。目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據, 是商業智能項目重要的一個環節。

參考資料:百度百科-ETL

TAG標籤:etl #