数据处理中经常遇到表连接问题,本次介绍R语言中三种左连接方法,这三种是等价的,不过会有时间快慢问题,斟酌使用。
法一:
1
|
> data0 <- merge(a,c,all.x=TRUE,by= 'CELLPHONE' ) |
法二:
1
|
> data1 <- sqldf( 'select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE' ) |
法三:
1
|
> data2 <- c[a,on= 'CELLPHONE' ] |
注意:第三种方法的顺序不能写反了。
补充:R语言中的inner_join, full_join, left_join, right_join
在R for Data Science中,作者用了非常直观的例子解释了上面的四个概念。说明如下:
我们的数据集是这样的:
1
2
3
4
5
6
7
8
9
10
11
12
|
x <- tribble( ~key, ~val_x, 1, "x1" , 2, "x2" , 3, "x3" ) y <- tribble( ~key, ~val_y, 1, "y1" , 2, "y2" , 4, "y3" ) |
可以看出,x与y的key都有1,2,但是x的key里面有3,y的key里面有4.
下面我们来看这四个概念:
1. inner_join
1
2
|
x %>% inner_join(y, by = "key" ) |
其结果是
1
2
3
4
|
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 |
可以看出,此时基于key的连接只保留了共同的key值1与2对应的数据;
2. full_join
1
2
|
x %>% full_join(y, by = "key" ) |
其结果是
1
2
3
4
5
6
|
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA 4 NA y3 |
可以看出,此时基于key的连接保留了所有key值对应的数据,当相应的值不存在的时候,用NA代替;
3. left_join
1
2
|
x %>% left_join(y, by = "key" ) |
此时的结果为
1
2
3
4
|
<dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA |
可以看出, 此时基于key的连接只保留了x对应的key值的数据,当相应的值不存在的时候,用NA代替;
4. right_join
1
2
|
x %>% right_join(y, by = "key" ) |
此时的结果为
1
2
3
4
5
|
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 4 NA y3 |
可以看出,此时基于key的连接只保留了y对应的key值的数据,当相应的值不存在的时候,用NA代替。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://wanpingdou.blog.csdn.net/article/details/75364936