pandas基于numpy,所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象,其实际上是numpy.float64对象,所以我们不能误认为其是空对象,从而用bool(np.nan)去判断是否为空值,这是不对的。
对于pandas中的空值,我们该如何判断,并且有哪些我们容易掉进去的陷阱,即不能用怎么样的方式去判断呢?
可以判断pandas中单个空值对象的方式:
1、利用pd.isnull(),pd.isna();
2、利用np.isnan();
3、利用is表达式;
4、利用in表达式。
不可以用来判断pandas单个空值对象的方式:
1、不可直接用==表达式判断;
2、不可直接用bool表达式判断;
3、不可直接用if语句判断。
示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
import pandas as pd import numpy as np na = np.nan # 可以用来判断空值的方式 pd.isnull(na) # True pd.isna(na) # True np.isnan(na) # True na is np.nan # True na in [np.nan] # True # 不可以直接用来判断的方式,即以下结果和我们预期不一样 na = = np.nan # False bool (na) # True if na: print ( 'na is not null' ) # Output: na is not null # 不可以直接用python内置函数any和all any ([na]) # True all ([na]) #True |
总结
numpy.nan是一个numpy.float64的非空对象,所以不能直接用bool表达式去判断,故一切依赖于布尔表达式的判断方式都不行,比如if语句。
对于pandas中空值的判断,我们只能通过pandas或者numpy的函数和is表达式去判断,不能用python的内置函数any或all判断。
比较奇怪的一点是pandas中空值的判断可以用is表达式判断,但是不能用==表达式判断。我们知道,对于is表达式,如果返回True,表示这两个引用指向的是同一个内存对象,即内存地址是一样的,一般同一个对象的不同引用的值也应该是相等的,所以一般is表达式为True,那么==表达式也为True。
但是对于numpy.nan对象显然不是这样的,因为其可以用is表达式判断,即当is表达式为True时,但==表达式为False,这说明虽然不同numpy.nan变量引用指向的是同一个内存地址,但是其具有自己的值属性,值是不一样的,所以不能用==来判断,这点需要注意。
补充:Pandas+Numpy 数据中空值的处理操作:判断、查找、填充及删除
本文整理了数据中空值的处理操作,主要内容如下:
为了便于描述,定义本文示例数据为如下结构:
1
2
|
df = pd.DataFrame([[ 1 , np.nan], [np.nan, 4 ], [ 5 , 6 ],[np.nan, 7 ]],columns = [ "A" , "B" ]) df #定义示例数据df |
判断数据中是否有空值
pandas isnull()函数
1
2
3
|
df.isnull() #返回df中各元素是否为空的同df大小的数据框 df[ "A" ].isnull() #判断A列中空值情况 df[[ "A" , "B" ]].isnull() # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull() |
pandas notnull()函数
1
2
3
|
df.notnull() #判断df中各元素是否 不是 空值 df[ "A" ].isnull() #判断A列中非空值情况 df[[ "A" , "B" ]].isnull() # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull() |
numpy np.isnan() 函数
1
2
3
|
np.isnan(df) # 等同于df.isnull() np.isnan(df[ "A" ]) # 等同于 df["A"].isnull() np.isnan(df[[ "A" , "B" ]]) # 等同于 df[["A","B"]].isnull() |
统计空值/非空值数量
1
2
3
4
5
6
7
|
df.isnull(). sum () # 统计每列的空值数量 df.notnull(). sum () # 统计每列的非空值数量 df[ "A" ].count() # A列 非空数量 df.count() # 统计所有列的非空值数量 df.count(axis = 1 ) # 每行非空值数量,axis=1 df[ "A" ]. sum () # A列 元素数值之和 |
根据空值筛选数据
1
2
3
4
5
6
7
8
9
10
|
# 筛选出A列为空的所有行 df[df.A.isnull()] df[df[ "A" ].isnull()] # 筛选出A列非空的所有行 df[df.A.notnull()] df[df[ "A" ].notnull()] # 筛选出df中存在空值的行 df[df.isnull().values = = True ] |
查找空值索引
1
2
|
np.where(np.isnan(df)) # df中空值所在的行索引及列索引 np.where(np.isnan(df.A)) # df中A列空值所在的行索引 |
删除空值 dropna()函数
1
2
3
4
5
6
7
8
9
10
11
|
df.dropna() # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作 df.dropna(axis = 1 ) # 删除存在空值的列 df.dropna(how = "all" ) # 删除所有列都为空值的特定行 df.dropna(how = "any" ) # 删除存在空值的行 # 对特定列空值进行删除 df.dropna(how = "any" ,subset = [ "A" ]) # 删除A列中存在空值的行 df.dropna(how = "any" ,subset = [ "A" , "B" ]) # 删除A,B列中只要有一列存在空值的行 #将删除操作作用于原数据,修改替换原数据 df.dropna(how = "all" ,subset = [ "A" , "B" ],inplace = True ) # 删除A,B列都为空值的行,并替换原数据 |
填充空值fillna()函数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
# 用指定的数字来填充 df.fillna( 0 ) # 用0来填充df中的空值 # 用指定的函数统计值来填充 df.fillna(df.mean()) # 用df中数据的平均值来填充空值 df.fillna(df.mean()[ "A" ]) #指定用A列数据均值来填充df中空值 df.fillna(df. sum ()) # 用df中数据的和来填充空值 # 用字典来填充 values = { 'A' : 0 , 'B' : 1 } # A列空值用0填充,B列空值用1填充 df.fillna(value = values) # 用指定字符串来填充空值 df.fillna( "unkown" ) # 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None} # 每列的空值,用其列下方非空数值填充 df.fillna(method = "backfill" ) df.fillna(method = "bfill" ) # 同backfill # 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值 df.fillna(method = "ffill" ) df.fillna(method = "pad" ) # 同 ffill #limit参数设置填充空值的最大个数 df.fillna( 0 ,limit = 1 ) # 每列最多填充1个空值,超过范围的空值依然为空 #inplace参数空值是否修改原数据df df.fillna( 0 ,inplace = True ) # inplace为true,将修改作用于原数据 |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/S_o_l_o_n/article/details/100661937