在进行python数据分析的时候,首先要进行数据预处理。
有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。
目前了解到的大概有三种方法:
1,通过LabelEncoder来进行快速的转换;
2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限;
3,通过get_dummies方法来转换。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1,2,3,4 5,6,,8 0,11,12,''' df = pd.read_csv(StringIO(csv_data)) print (df) #统计为空的数目 print (df.isnull(). sum ()) print (df.values) #丢弃空的 print (df.dropna()) print ( 'after' , df) from sklearn.preprocessing import Imputer # axis=0 列 axis = 1 行 imr = Imputer(missing_values = 'NaN' , strategy = 'mean' , axis = 0 ) imr.fit(df) # fit 构建得到数据 imputed_data = imr.transform(df.values) #transform 将数据进行填充 print (imputed_data) df = pd.DataFrame([[ 'green' , 'M' , 10.1 , 'class1' ], [ 'red' , 'L' , 13.5 , 'class2' ], [ 'blue' , 'XL' , 15.3 , 'class1' ]]) df.columns = [ 'color' , 'size' , 'price' , 'classlabel' ] print (df) size_mapping = { 'XL' : 3 , 'L' : 2 , 'M' : 1 } df[ 'size' ] = df[ 'size' ]. map (size_mapping) print (df) ## 遍历Series for idx, label in enumerate (df[ 'classlabel' ]): print (idx, label) #1, 利用LabelEncoder类快速编码,但此时对color并不适合, #看起来,好像是有大小的 from sklearn.preprocessing import LabelEncoder class_le = LabelEncoder() color_le = LabelEncoder() df[ 'classlabel' ] = class_le.fit_transform(df[ 'classlabel' ].values) #df['color'] = color_le.fit_transform(df['color'].values) print (df) #2, 映射字典将类标转换为整数 import numpy as np class_mapping = {label: idx for idx, label in enumerate (np.unique(df[ 'classlabel' ]))} df[ 'classlabel' ] = df[ 'classlabel' ]. map (class_mapping) print ( '2,' , df) #3,处理1不适用的 #利用创建一个新的虚拟特征 from sklearn.preprocessing import OneHotEncoder pf = pd.get_dummies(df[[ 'color' ]]) df = pd.concat([df, pf], axis = 1 ) df.drop([ 'color' ], axis = 1 , inplace = True ) print (df) |
以上这篇python数据预处理之将类别数据转换为数值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。