【Tableau】一、數據源連接及操作

背景

接觸Tableau好幾年了，通過找資料自學以及在工作上的不斷學習及實踐，慢慢的對於Tableau的使用越來越熟練，但是隱約覺得知識點太零散沒有體系框架，因此專門找了課程研究學習，為了便於知識點的掌握及後續的鞏固，我將按照課程及自己在工作中的經驗對知識點進行框架的梳理，並一個板塊一個板塊的在知乎上進行記錄。

首先，接觸Tableau的第一步，也就是對數據源的操作，因為有了數據源，你才能夠根據業務對數據進行處理，然後進行後面的可視化。所以第一章節就是講解數據源連接及操作。

大綱

下圖是本次內容的大綱，如果看不太清楚也不要緊，後面我會拆部分依次進行講解。

內容

數據源部分的內容，主要劃分成了3大部分：

可連接的數據
數據連接的方式
數據源操作

其中第3部分「數據源操作」是本次數據源部分最核心的內容。我們首先來講第1部分。

1、可連接的數據

（1）到檔

在工作上主要是用到Microsoft Excel、文本文件和空間檔這3種，Microsoft Excel就是以".xls"，".xlsx"，".xlsm"結尾的檔;常用的".csv"結尾的檔是文本檔，所以在連接選擇的時候要注意，選擇對應的類型即可，不然可能找不到對應文件的情況;空間檔是在畫地圖不用自帶經緯度時用到的檔。其他用到的不多，需要用到時，百度即可。

（2）到伺服器

到伺服器這一部分是用的比較多的，因為稍微數據量大點的公司，都會有自己的資料庫，MySQL或是Oracle，有大數據平臺Hadoop的，也是可以通過連接伺服器連接的。由於我們公司還有三方數據平臺Google Analytics，所以部分數據還需要連接GA。公司購買了正版的Tableau，那麼還會多一個Tableau Server的伺服器端，提取的數據源可以上傳到Server上，可以反覆調用，伺服器上其他使用者發佈的數據源，也能夠調用。由於我截圖的是家裡破解版本，所以沒有Tableau Server選項。 Tableau連接支援的伺服器類型是特別特別多的，基本上都是能夠支援的。

（3）已保存資料來源

是Tableau本身自帶的一些數據源，你自己保存的數據源也會在這裡顯示。

2、數據連接的方式

即時
數據提取

數據連接的方式可以分為2種，各自都有自己的應用場景

（1）即時

當在開發介面做的任何一個操作，Tableau都會將它轉換成一個查詢代碼發送到伺服器，執行查詢以後再將結果反回到Tableau進行顯示

【使用場景】：

對數據的準確性要求特別高，以比較短的間隔比如秒級來掌握原始數據發生的變動
對數據的保密性要求很高，不允許將數據拷貝，或是保存在其他地方，只能聯接到指定的伺服器上進行操作
IT基礎設施非常好，伺服器的硬體，網路的頻寬等都很強大，可以支持即時的操作形式

（2）資料提取

為了解決現在大數據特別的多，數據會很大，幾億幾十億的情況，大量數據會給開發操作帶來性能上和實效性方面的延遲

【使用場景】：

使用場景和"即時"相反。

【實際工作中數據提取和數據刷新】：

由於數據源本身數據量大，每天需要刷新的數據量很多，而且本身對實效性也沒有那麼敏感，因此我們採用的是N+1的模式進行數據提取刷新的，就是今天提取刷新昨天的數據，時間間隔會有1天，而且因為需要刷新的數據源很多，根據數據源的重要程度及刷新時間的需求，會進行不同時間的自動刷新設置。比如很重要的流量、銷售數據，就會每天在最核心的時間段刷新，而不需要每天關注的流程數據源，就可以根據業務需求進行頻次的設置，可以隔2天刷新，或者是設置在下班后的時間段刷新。一定不要同一時間段刷新，這樣會造成伺服器的負擔，也會使得重要數據源一直在排隊沒有刷新。

3、數據源操作

聯接
並集
數據混合
其他特殊數據源的操作

這一部分的內容是數據源部分很核心的內容，是在工作中用Tableau進行取數的第一步，數據分析的原數據都錯誤的話，再怎麼進行數據處理可視化都是徒勞。

如果本身很熟悉資料庫MySQL取數，那麼這一部分就很好掌握，聯接和SQL語句的join的思想是完全一致的。並集也就是MySQL的UNION ALL。

（1）聯接

1） 4種聯接類型

上圖為Tableau的聯接介面，左表為"訂單"，右表為"退貨"，通過連接條件進行連接，可以是單個，也可以是多個，上圖條件就是"訂單"表裡的"訂單ID"字段和"退貨"表裡的"訂單ID"字段進行匹配，相同的就能匹配上，不相同就匹配不上。

兩個表的聯接方式有4種，分別是：

方式	定義
內聯接	兩個表的交集，兩表匹配不上的部分不返回
左聯接	以左表為準，生成的表將包含左側表中的所有值以及右側表中的對應匹配項，未匹配上的返回null值
右聯接	和左聯接思想一致，只是以右表為準，生成的表將包含右側表中的所有值以及左側表中的對應匹配項，未匹配上的返回null值
完全外部聯接	包含兩個表中的所有值。當任一表中的值在另一個表中沒有匹配項時，返回null值

聯接的4種方式我在這裡不重點詳細講解，會MySQL中join的部分看到就知道在Tableau中如何操作。我後面會專門寫一篇MySQL的join部分的詳細篇，舉例展示執行結果，對比結果清楚的知道這幾種join的區別。

2）2種聯接方式

第一種：同資料庫聯接

2個表都來自於同一個資料庫，下圖中的「訂單」和"退貨"表都是來自於"範例 - 超市"這個資料庫。可以看到2個表和「範例 - 超市」資料庫的顏色都是藍色，說明2個表都是來自「範例 - 超市」資料庫的。

第二種：跨資料庫聯接

下圖中的"user_info"來自Excel"user"，而"operation"來自MySQL資料庫，並不是來與同一源，從顏色就可以看出，源和表的顏色是一致的，這裡出現了2種顏色。

（2）並集

並集其實就是MySQL中的UNION ALL操作，也就是將格式相同的不同表合併在一起。

有2種：手動合併、通配符合並

第一種：手動合併

如下圖，先連接到excel表「成績表」，然後表中的3個sheet表是格式一致，不同班級的成績，需要合併，就直接把3個表拖到並集框裡面，最後點擊確定就可以了。

第二種：通配符合並

資料夾有這樣3個Excel表，是3個班的成績，需要把這3個Excel表合併

可以看出Excel表名的只有班級的尾綴不一致，因此我們可以加一個"*"代表通配符，這樣把選中的資料夾下，名字以"成績表"為前綴的所有Excel都合併起來。 Tableau提供了更強大的功能，可以將搜索擴展到子資料夾以及父資料夾，符合匹配條件的都可以合併，如果需要的話直接勾選即可。這個例子不涉及到子資料夾或是父資料夾，所以不勾選。

（3）數據混合

1）定義

2個數據源進行混合，1個是主數據源，1個是輔助數據源;2個數據源之間至少有1個字段可以進行關聯;主數據源和輔助數據源並不是絕對的，是由工作表決定的。

注意：2個數據源之間的關係是Tableau工作簿級別，誰是主誰是輔是在工作表級別設置的，它是可以互換的。

從上圖可以看出，2個數據源有相同的欄位"產品名稱"，可以混合數據源按照不同維度進行銷售數據的統計。並且「產品清單」中的「產品型號」和「產品銷售明細」中的「產品編號」其實是統計的同一個字段，只是兩個數據源中的欄位名不一致，可以利用下面要講的編輯關係來手動建立聯繫，從而統計「產品型號」的銷售情況，並知道哪些產品型號是沒有銷售，哪些是有銷售的。

2）編輯關係

關係決定輔助數據源中的數據和主數據源的聯接方式