【數據整理】一份思維導圖,學完Tableau Prep(下)
Tableau Prep是敏捷ETL工具,為業務使用者提供了輕鬆簡單處理數據的友好工具。 坦言之,Prep的出現讓我真正地熱愛Tableau至今,它補充了Tableau從可視化分析走向了自助化分析的完整版圖。
最近正在準備Tableau的視頻課程,因此在體系化的、從業務角度出發梳理整個脈絡體系。 今天,我用一篇文章,試圖簡明、全面地概括整個軟體最關鍵的功能。
Prep系列文章:【數據整理】一份思維導圖,學完Tableau Prep
Prep系列文章(公眾號):
一、Prep的功能介紹
prep的功能可以分為數據連接和初次加工、數據清洗和深度加工、數據發佈三個階段,所有的數據過程基本都要完整經過這個過程。 我們可以把數據看作是生病的病人,Prep説明我們診斷明顯的或者隱藏的各種病情並完成治療,同時還能根據需要做各種保健,之後送出醫院。 數據整理我們分為兩個步驟,(針對數據錯誤)數據清理和(針對需求)數據結構轉化,因此就成了以下四個部分。

第一步,我們需要先把用我們的診療設備(prep)連接到"數據病人",為了更好的診斷,我們建議連接資料庫,從而完整地瞭解;為了提高診療的性能,我們有可以先建立樣本望聞問切,找到思路后再運行全部的數據。 連接之後有一部分輕處理工作,可以對「數據病人」做一些基本的數據整理。
第二步,「數據會生病」,小病看保健,大病做手術。 前者比如重命名、賦予字段數據角色、複製移除等;後者如修改、篩選、分組、拆分。 ——這一部分是數據清洗的關鍵,面向的都是數據的異常和錯誤。 第三步,治病要治標也要治本,這才是關鍵。 根據分析的需要,我們需要對數據進行深度的加工,比如多個數據源的合併和連接,調整數據的粒度(詳細級別),甚至必要時做好數據轉置等。 第四步,把數據匯出,放在本地或者作為數據源發佈共用。
二、數據連接與初步處理
數據連接是分析的起點,這裡包含了數據連接、樣本設置和輕處理三個環節。 1、Tableau desktop和Prep都可以輕鬆連接你的數據源,不管是本地文件還是資料庫檔。 本地檔可以使用通配符創建並集,伺服器可以使用初始化SQL簡化數據連接的過程。 2、作為大數據分析產品,我們可以基於樣本做分析,之後在總體上運行樣本的處理規則,因此使用樣本可以加速處理過程。 快速抽樣是選擇數據源的最後的數據,提取更快,而隨機抽樣更加全面。 3、欄位也需要處理,最常見的是欄位的數據類型錯誤,比如身份證應該是字元而非數位,這裡可以點擊字段左上角的abc標記輕鬆修改。 同時,並非所有的數據欄位都是分析必備的,因此可以移除欄位;而使用篩選器可以排除或者保留欄位中的特定數據,確保分析時的數據準確,並減少分析範圍,比如僅篩選最近三年的訂單訊息。

在本地數據的數據連接階段,我們還會遇到多個檔的並集合並Union,在連接面板中,建議使用通配符來完成自動匹配。
三、數據清洗與數據深整理
這一部分是Prep的關鍵,數據會生病,我們要診斷並針對性治療。 完整的數據整理可以分為數據清理(錯誤)和數據結構轉化(優化)。
1、數據清洗 Data Clean
數據清理可以分為欄位名稱的清洗和數據的清洗兩個部分,前者針對構成分析的維度和度量名稱,後者針對明細數據。

欄位的整理主要是修改欄位名稱(比如"單位"改為"單位名稱")、按照分析工具的要求賦予欄位特定角色(比如給"省"賦予"地理角色",從而生成地圖),以及基本的欄位操作(欄位移除和複製等)。
而數據的清理相對而言更加重要,也更加複雜。 最簡單的是直接按兩下修改數據——適用於少量的數據異常;如果批量的數據異常,則推薦使用"分組和替換"批量修改,比如按照字元來替換。 除此之外還有三大操作:篩選器、清理和拆分。 分別用於數據的保留或排除、批量清理字元和拆分欄位。 而所有的這些操作,其實都是在數據上執行的"計算"。 如果遇到了這些快捷方式無法完成的問題,就可以使用計算欄位來實現,比如常見的left、mid函數,makedate函數等等。

2、數據轉化
上面說的是修改數據錯誤,另一類型的數據操作是數據沒有錯,但是結構需要根據分析的需要調整——注意是分析的需要,所以在不同情況下調整自然會有不同,無所謂對錯,而在於需求。 常見的按需調整有三類:數據合併(並集或連接)、數據聚合(更改數據層次)、數據轉置(更改行列結構)。 特別是數據聚合,常用於修改數據的顆粒度(或者稱之為數據級別),比如把100萬行的數據根據需要調整為1萬行的數據顆粒度,從而加速分析過程。 在prep中,可以通過可視化的拖拽輕鬆完成這些操作,並能使用顏色直觀地查看數據結果。
四、數據匯出
最後,我們要分享整理的結果,要麼保存為本地文件,要麼通過數據源發佈到伺服器以供更多人使用,Tableau Prep都可以輕鬆實現。 而且,Prep可以讓我們在任何一個整理的環節跳轉到desktop預覽,從而查看整理的結果。

一個思維導圖,基本理清了所有的prep脈絡,按照這個思路練習一遍,即可以輕鬆掌握。
- 下載我的導圖pdf版本:查看原文——部落格——文末下載 Prep 導圖框架
Aug 14, 2019
Aug 20, 2019 Sichuan
Aug 21, 2019 Beijing
by 喜樂君 185 0115 0300
Tableau Partner, dual QA Certification
提供Tableau全系產品的銷售、服務和培訓服務