怎么在R语言中实现两表连接且输出不重复数据

发布时间：2021-03-31 16:43:42 来源：亿速云阅读：361 作者：Leah 栏目：开发技术

本篇文章给大家分享的是有关怎么在R语言中实现两表连接且输出不重复数据，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

说明：

1.在项目过程中，数据量较大，用到的是data.table包，需要用到SQL中的语句减少代码量，因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有对应的值。

3.yy中的a1与b是一一对应的关系，不存在同一个a1值对应不同的b值。

4.此程序的目的是，用yy表与xx表匹配，也就是最终的结果应该是在xx的基础上增加b这一列的信息，数据集xx的行数不变。

如下所示：

<span >> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span >> xx
  a1 c  d
1: 1 8 adf
2: 2 5  af
3: 3 8 sdf
4: 4 6 utr
5: 5 23  af
6: 6 7 ruti</span>

<span >yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
                            'f','h','i','b','b','c','f'))</span>

<span >> yy
  a1 b
 1: 2 b
 2: 3 c
 3: 1 a
 4: 4 d
 5: 5 e
 6: 5 e
 7: 7 g
 8: 6 f
 9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>

<span >#按照a1连接所有信息包括进去 
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy 
  a1 c  d b
 1: 1 8 adf a
 2: 2 5  af b
 3: 2 5  af b
 4: 2 5  af b
 5: 3 8 sdf c
 6: 3 8 sdf c
 7: 4 6 utr d
 8: 5 23  af e
 9: 5 23  af e
10: 6 7 ruti f
11: 6 7 ruti f</span>

<span >#删除重复的行*/ 
> sqldf("select DISTINCT a1,b,c,d from left1")
 a1 b c  d
1 1 a 8 adf
2 2 b 5  af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23  af
6 6 f 7 ruti</span>

补充：R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配，本次介绍五种筛选不重复行的数据：

五种方法如下：

>>> library(dplyr)
>>> library(sqldf)

方法一：

>>> data1 <- data7_0 %>% 
       group_by(CELLPHONE,MEMBERID) %>%
       filter(row_number() == 1) %>%
       ungroup()

方法二：

>>> data2 <- data7_0 %>% 
       distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三：

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四：

>>> data4 <- base::unique(data7_0)

方法五：

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上就是怎么在R语言中实现两表连接且输出不重复数据，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。

向AI问一下细节

怎么在R语言中实现两表连接且输出不重复数据

如下所示：

五种方法如下：

方法一：

方法二：

方法三：

方法四：

方法五：

猜你喜欢

最新资讯

相关推荐

相关标签