淺談數據清洗之道-基於Tableau Prep

淺談數據清洗之道-基於Tableau Prep

最近發現一數據清洗神器,Tableau Prep。 對於多數業務人員、或者進行分析業務目標的產品和運營,傳統的數據處理過程通常由專職的數據工程師完成、後台開發協助你完成、或是自助從某個後台中導出字段自助完成,其自助處理的手段(除了極個別的會通過power BI的power query DAX函數,會在Tableau中編寫函數,或提前用R或者python來處理), 大部分人都是通過在excel中進行操作完成,尤其通過vlookup進行連接時,低效又容易出錯。

而Tableau Prep可以以簡單直觀的方式處理從源數據到可分析的數據這一處理過程,使業務人員也可以不需要其他人的協助也能高效處理"大臟數據"。

Tableau Prep入門

官方下載位址 tableau.com/zh-cn/suppo

官方入門指南 help.tableau.com/curren

其操作介面和Tableau Desktop設計風格相似,最好的入門方法就是看自帶範例流程,瞭解其各操作的作用,帶著問題走一遍官方入門指南。 我個人流覽了一遍這個指南,其數據集囊括很常見的臟數據問題,可以有效提高使用tableau prep之術,但有一些其處理思路,我相信大部分業務人員都尚未形成這種思維體系,我稱之為數據清洗之道,今天就這個教程的例子,我淺談下對此道的看法。

數據清洗之道總結

數據清洗是一個反覆的過程,並不是按上表順次完成,每次生成新的計算列、合併或連接形成新的表都要對其可能產生的異常進行檢查。

官方教程實戰處理補充

接下來以上文提到的入門指南中的例子,補充下清洗時的注意處理方法。

明確目標

首先明確分析的目標,這幾個檔包含幾個區域的銷售數據和退款數據。 流覽其內容數據大概包含訂單訊息、客戶訊息、產品訊息,老闆的目標是分析各區域過去四年的數據,據此數據內容我們有了以下的分析角度

  • 趨勢分析:分析銷售額、利潤等指標隨著時間的趨勢變化
  • 對比和分佈分析:對比各區域或各產品類型的銷售表現和利潤貢獻
  • 排名分析:頭部和尾部客戶清單

複雜一些的:

  • 銷售和利潤的時序預測
  • 客戶的流失、返回等分析
  • 相關性分析:每年度某產品的銷量是否和其他產品銷量呈現正負相關性

據此,我們在進行數據清洗時,要注意保留相關的數據

探索數據

明確了目標我們再次探索數據,在官方入門文檔中沒有清楚提及的一點是他是怎麼發現要合併的幾個訂單的表的數據差異的。 通常以我在使用R處理數據的經驗看,需要反覆交替查看各個列名和其中的樣本值。 在Tableau Prep我覺得有一個較友好的辦法,既然幾個訂單表大致相同,直接對其新建並集合並。

按兩下查看這個並集,右上角顯示其預設提供了26條建議,基本是基於對數據缺失和數據類型異常的發現而建議的。 我們最好仔細檢查一下,看左側的內容顯示了各字段在不同表中的存在情況,我們發現有一些列僅存在於一個表中。

觀察這些列,首先上半部分,Product很可能是我們需要的一個列,那其他表裡應該也有這個列,很可能是列名不匹配,繼續觀察這個表沒有和其他表沒有的列,我們發現了個Product Name,回到右側清單查看具體內容,發現其樣本值類似。 那我們變更列名就可以解決這個問題,或者更友好的方法直接對其合併。

類似其他的Discounts對應Discount,其他幾個日期複雜一點,是order date和ship date的拆分,需要在源檔中使用makedate函數合併到一起。

下半部分的內容比較好解決,看命名應該是對值的備份和修正,既然其他表裡都沒有相關的數據,直接幹掉就好。

最後只剩下一個Region不匹配,可以在並集中直接編輯null為Central,但這樣仍然顯示其不匹配,也可以像其教程中那樣在源檔中把對其添加Region列設為Central。

接下來配合紅框區域各欄位的分佈軸,查看各欄位其他問題。

字段問題及處理Sales銷售額應該是數值類型,查看尾部和樣本數據發現部分帶了貨幣USD,按教程清除字母,然後修改類型Discounts應該為數值類型,發現最後一個None,變更為0State有縮寫有全稱,按教程替換縮寫為全稱Row ID這是個無意義的ID,建議刪除Country全部為同一個值,無意義, 建議刪除至此大概完成了數據清洗的過程,按文中所述最後添加輸出數據源就可以被Tableau Desktop或者其他應用使用了。

該教程數據還算比較乾淨,實際工作中的數據常常要比這髒亂得多,需要反覆使用數據清洗之道中使用的其他方法,比如說查看是否有重複的行,是否要清理和修復掉例子中Profit的異常值,插補各種的缺失值,這每一種處理都有各種各樣的方法,在此不展開細講。

後續我會繼續寫一些基於Tableau和R做數據分析的實戰說明,歡迎關注!

What do you think?

Written by marketer

矽谷10大 Growth Hacker (成長駭客)經典案例

第三周:TABLEAU數據可視化,讓數據會講故事