Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码。
1、数据我是自己编的
在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
import pandas as pd df = pd.DataFrame([ { "class" : 1 , "name" : "aa" , "english" : 120 }, { "class" : 1 , "name" : "bb" , "english" : 110 }, { "class" : 1 , "name" : "cc" , "english" : 110 }, { "class" : 1 , "name" : "dd" , "english" : 110 }, { "class" : 2 , "name" : "ee" , "english" : 120 }, { "class" : 2 , "name" : "ff" , "english" : 140 }, { "class" : 2 , "name" : "gg" , "english" : 130 }, { "class" : 2 , "name" : "hh" , "english" : 130 }, { "class" : 3 , "name" : "tt" , "english" : 130 }, { "class" : 4 , "name" : "xx" , "english" : 130 }, { "class" : 4 , "name" : "yy" , "english" : 130 }, { "class" : 5 , "name" : "zz" , "english" : None }, ]) |
2、分组取第二大的数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
def fun(df): # english数据去重 sort_set = set (df[ "english" ].values.tolist()) if len (sort_set)< = 1 : # 数据量小于等于1,无法取到第二大的数据 return None else : # 取english中第二大的值 sort_value = sorted (sort_set,reverse = True )[ 1 ] temp_df = df[df[ "english" ] = = sort_value] return temp_df df = df.groupby(by = [ "class" ]). apply (fun).reset_index(drop = True ) print (df) |
结果如下:
1
2
3
4
5
6
|
class name english 0 1 bb 110.0 1 1 cc 110.0 2 1 dd 110.0 3 2 gg 130.0 4 2 hh 130.0 |
3、写完啦,就这么简单
当然这还可以改为取最大、取最小、取第三大、等等......
补充:pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行
pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行
一、需求
按 updateTime 列倒序排序,按 B 和 C 两列分组,分组后选择最后更新的时间的那一行,并将结果加上新索引。
二、代码
1
2
3
4
|
import pandas as pd data = pd.read_csv( 'test.csv' ) df = pd.DataFrame(data) df = df.sort_values( 'updateTime' , ascending = False ).groupby([ 'B' , 'C' ]).first().reset_index() |
first() 函数代表选择第一行,如果要选取多行,可以使用 head() 函数: head(5)表示选择前五行。
如下例:
1
2
3
4
5
|
import pandas as pd data = pd.read_csv( 'test.csv' ,header = 0 ) df = pd.DataFrame(data) # 按日期分组,分组后对 value 列从大到小排序,取每组前十行 df = df.groupby( 'date' , group_keys = False ). apply ( lambda x: x.sort_values( 'value' , ascending = False )).groupby( 'date' ).head( 10 ).reset_index() |
在不能直接使用sort_values() 函数时,使用 apply() 函数。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/weixin_42060598/article/details/102970172