Pandas常用操作命令(一)
大家好,我是【
本期為大家帶來
1. 數據導入、導出
1.1 從csv、xlsx、table、sql、json、html讀取數據
pd.read_csv(filename) pd.read_csv(filename) pd.read_table(filename) pd.read_excel(filename) pd.read_sql(query, connection_object) pd.read_json(json) pd.read_html(url)
pd.read_table(filename) pd.read_csv(filename) pd.read_table(filename) pd.read_excel(filename) pd.read_sql(query, connection_object) pd.read_json(json) pd.read_html(url)
pd.read_excel(filename) pd.read_csv(filename) pd.read_table(filename) pd.read_excel(filename) pd.read_sql(query, connection_object) pd.read_json(json) pd.read_html(url)
pd.read_sql(query, connection_object) pd.read_csv(filename) pd.read_table(filename) pd.read_excel(filename) pd.read_sql(query, connection_object) pd.read_json(json) pd.read_html(url)
pd.read_json(json) pd.read_csv(filename) pd.read_table(filename) pd.read_excel(filename) pd.read_sql(query, connection_object) pd.read_json(json) pd.read_html(url)
以test.csv文件為例:
filename = 'test.csv' filename = 'test.csv' pd.read_csv(filename, encoding='gbk')
1.2 從CSV文件導入數據,讀取前6行,當數據量比較大時,可以只讀取前n行
pd.read_csv(filename, encoding='gbk', nrows = 6)
注意和
1.3 從CSV文件導入數據,第一列作為行索引,忽略列索引
pd.read_csv(filename, encoding='gbk', header=None, index_col=0)
1.4 從CSV文件讀取數據,忽略第1/3/5行和最後兩行
pd.read_csv(filename, encoding='gbk', skiprows=[1,3,5], skipfooter=2, engine='python')
1.5 從限定分隔符(',')的文件或文本讀取數據
pd.read_table(filename, sep=',', encoding='gbk')
注意:分隔符需要根據文件格式調整
1.6 數據保存
df.to_csv(filename) df.to_csv(filename) df.to_excel(filename) df.to_sql(table_name,connection_object) df.to_json(filename)
df.to_excel(filename) df.to_csv(filename) df.to_excel(filename) df.to_sql(table_name,connection_object) df.to_json(filename)
df.to_sql(table_name,connection_object) df.to_csv(filename) df.to_excel(filename) df.to_sql(table_name,connection_object) df.to_json(filename)
2. 查看數據訊息
2.1 查看DataFrame對象的前n行
df.head(3)
2.2 查看DataFrame對象的最後n行
df.tail(3)
2.3 查看行數和列數
df.shape
2.4 查看索引、數據類型和內存訊息
df.info()
2.5 查看數值型列的匯總統計
df.describe()
2.6 查看DataFrame對像中每一列的唯一值和計數
df.apply(pd.Series.value_counts)
篇幅原因直截取了部分,
3. 數據清洗
3.1 重命名列名
df.columns = ['姓名','语文','数学','英语','城市','省份']
3.2 選擇性更改列名
df.rename(columns={'姓名': '姓--名','语文': '语--文'})
3.3 批量更改索引
df.rename(lambda x: x + 11)
3.4 批量更改列名
df.rename(columns=lambda x: x + '_1')
3.5 設置姓名列為行索引
df.set_index('姓名')
3.6 檢查哪些列包含缺失值
df.isnull().any()
3.7 刪除本列中空值的行
df[df['數學'].notnull()] df[df['数学'].notnull()] df[~df['数学'].isnull()]
3.8 去掉某行、某列
# 去掉某行df.drop(0, axis=0) # 去掉某行df.drop(0, axis=0) # 去掉某列df.drop('英语', axis=1)
3.9 刪除所有包含空值的行
df.dropna()
刪除了第1、3、5、7行。
3.10 刪除行里全都是空值的行
df.dropna(how = 'all')
僅僅刪除了第7行。
3.11 保留至少有n個非空值的行
df.dropna(thresh=n)
3.12 保留至少有11個非空值的列
df.dropna(axis=1,thresh=n)
3.13 行數據向下填充
df.fillna(method = 'ffill')
3.14 列數據向右填充
df.fillna(method = 'ffill',axis=1)
3.15 用0替換DataFrame對像中所有的空值
df.fillna(0)
未完待續。 。 。
以上就是本期為大家整理的全部內容了,趕快練習起來吧,喜歡的朋友可以點贊、收藏也可以分享讓更多人知道
更多內容
推薦閱讀
可視化| Pyecharts動態繪製比特幣近幾年股價變遷
爬取《白蛇2:青蛇劫起》20000+影評數據分析可視化
123個Pandas常用基礎指令,真香!
爬蟲+可視化| 動態展示2020東京奧運會獎牌世界分佈
Schedule + Pyecharts | 時間序列圖(動態輪播圖)
Pandas+Pyecharts | 北京某平台二手房數據分析+可視化
Pandas+Pyecharts | 2021台灣大學綜合排名分析+可視化
可視化| 用Python分析近5000個旅遊景點,告訴你假期應該去哪玩
可視化| Python陪你過520:在你身邊,你在身邊
可視化| Python製作最炫3D可視化地圖
爬蟲| Python爬取豆瓣電影Top250 + 數據可視化
爬蟲| 用python構建自己的IP代理池,再也不擔心IP不夠用啦!
技巧| python定時發送郵件(自動添加附件)
技巧| 20個Pycharm最實用最高效的快捷鍵(動態展示)
技巧| Python製作朋友圈炫酷九宮格圖片
基礎| 徹底搞懂Python異常處理:try-except-else-finally
基礎| Python函數一文詳解