【數據整理】一份思維導圖,學完Tableau Prep(下)

【數據整理】一份思維導圖,學完Tableau Prep(下)

Tableau Prep是敏捷ETL工具,為業務使用者提供了輕鬆簡單處理數據的友好工具。 坦言之,Prep的出現讓我真正地熱愛Tableau至今,它補充了Tableau從可視化分析走向了自助化分析的完整版圖。

最近正在準備Tableau的視頻課程,因此在體系化的、從業務角度出發梳理整個脈絡體系。 今天,我用一篇文章,試圖簡明、全面地概括整個軟體最關鍵的功能。

Prep系列文章:【數據整理】一份思維導圖,學完Tableau Prep

Prep系列文章(公眾號):

一、Prep的功能介紹

prep的功能可以分為數據連接和初次加工、數據清洗和深度加工、數據發佈三個階段,所有的數據過程基本都要完整經過這個過程。 我們可以把數據看作是生病的病人,Prep説明我們診斷明顯的或者隱藏的各種病情並完成治療,同時還能根據需要做各種保健,之後送出醫院。 數據整理我們分為兩個步驟,(針對數據錯誤)數據清理和(針對需求)數據結構轉化,因此就成了以下四個部分。

blank

第一步,我們需要先把用我們的診療設備(prep)連接到"數據病人",為了更好的診斷,我們建議連接資料庫,從而完整地瞭解;為了提高診療的性能,我們有可以先建立樣本望聞問切,找到思路后再運行全部的數據。 連接之後有一部分輕處理工作,可以對「數據病人」做一些基本的數據整理。

第二步,「數據會生病」,小病看保健,大病做手術。 前者比如重命名、賦予字段數據角色、複製移除等;後者如修改、篩選、分組、拆分。 ——這一部分是數據清洗的關鍵,面向的都是數據的異常和錯誤。 第三步,治病要治標也要治本,這才是關鍵。 根據分析的需要,我們需要對數據進行深度的加工,比如多個數據源的合併和連接,調整數據的粒度(詳細級別),甚至必要時做好數據轉置等。 第四步,把數據匯出,放在本地或者作為數據源發佈共用。

二、數據連接與初步處理

數據連接是分析的起點,這裡包含了數據連接、樣本設置和輕處理三個環節。 1、Tableau desktop和Prep都可以輕鬆連接你的數據源,不管是本地文件還是資料庫檔。 本地檔可以使用通配符創建並集,伺服器可以使用初始化SQL簡化數據連接的過程。 2、作為大數據分析產品,我們可以基於樣本做分析,之後在總體上運行樣本的處理規則,因此使用樣本可以加速處理過程。 快速抽樣是選擇數據源的最後的數據,提取更快,而隨機抽樣更加全面。 3、欄位也需要處理,最常見的是欄位的數據類型錯誤,比如身份證應該是字元而非數位,這裡可以點擊字段左上角的abc標記輕鬆修改。 同時,並非所有的數據欄位都是分析必備的,因此可以移除欄位;而使用篩選器可以排除或者保留欄位中的特定數據,確保分析時的數據準確,並減少分析範圍,比如僅篩選最近三年的訂單訊息。

blank

在本地數據的數據連接階段,我們還會遇到多個檔的並集合並Union,在連接面板中,建議使用通配符來完成自動匹配。

三、數據清洗與數據深整理

這一部分是Prep的關鍵,數據會生病,我們要診斷並針對性治療。 完整的數據整理可以分為數據清理(錯誤)和數據結構轉化(優化)。

1、數據清洗 Data Clean

數據清理可以分為欄位名稱的清洗和數據的清洗兩個部分,前者針對構成分析的維度和度量名稱,後者針對明細數據。

blank

欄位的整理主要是修改欄位名稱(比如"單位"改為"單位名稱")、按照分析工具的要求賦予欄位特定角色(比如給"省"賦予"地理角色",從而生成地圖),以及基本的欄位操作(欄位移除和複製等)。

而數據的清理相對而言更加重要,也更加複雜。 最簡單的是直接按兩下修改數據——適用於少量的數據異常;如果批量的數據異常,則推薦使用"分組和替換"批量修改,比如按照字元來替換。 除此之外還有三大操作:篩選器、清理和拆分。 分別用於數據的保留或排除、批量清理字元和拆分欄位。 而所有的這些操作,其實都是在數據上執行的"計算"。 如果遇到了這些快捷方式無法完成的問題,就可以使用計算欄位來實現,比如常見的left、mid函數,makedate函數等等。

blank

2、數據轉化

上面說的是修改數據錯誤,另一類型的數據操作是數據沒有錯,但是結構需要根據分析的需要調整——注意是分析的需要,所以在不同情況下調整自然會有不同,無所謂對錯,而在於需求。 常見的按需調整有三類:數據合併(並集或連接)、數據聚合(更改數據層次)、數據轉置(更改行列結構)。 特別是數據聚合,常用於修改數據的顆粒度(或者稱之為數據級別),比如把100萬行的數據根據需要調整為1萬行的數據顆粒度,從而加速分析過程。 在prep中,可以通過可視化的拖拽輕鬆完成這些操作,並能使用顏色直觀地查看數據結果。

四、數據匯出

最後,我們要分享整理的結果,要麼保存為本地文件,要麼通過數據源發佈到伺服器以供更多人使用,Tableau Prep都可以輕鬆實現。 而且,Prep可以讓我們在任何一個整理的環節跳轉到desktop預覽,從而查看整理的結果。

blank

一個思維導圖,基本理清了所有的prep脈絡,按照這個思路練習一遍,即可以輕鬆掌握。

  • 下載我的導圖pdf版本:查看原文——部落格——文末下載 Prep 導圖框架

Aug 14, 2019
Aug 20, 2019 Sichuan
Aug 21, 2019 Beijing

by 喜樂君 185 0115 0300

Tableau Partner, dual QA Certification

提供Tableau全系產品的銷售、服務和培訓服務

What do you think?

Written by marketer

blank

Tableau基礎·如何合併你的數據? 理解與邏輯

blank

某公司銷售數據分析報告(Excel、Tableau)