有个excel文档,第一列是公司名,第二列是商品代码
类似
A
北京公司 10001
北京公司 10001
上海公司 10002
广州公司 10001
广州公司 10003
北京公司 10002
....
一共是11万行,有24个厂家,3万多种商品,(部分行是完全相同的),我想统计一下同一件商品有多少家公司销售,然后做一个频数分布图,
> dim(shangpin)
[1] 113824 2
> length(unique(shangpin$x))
[1] 24
> length(unique(shangpin$y))
[1] 37481
> dim(unique(shangpin))
[1] 52584 2
> dim(shangpin[!(duplicated(shangpin$x)&duplicated(shangpin$y)),])
[1] 37484 2
我想问下,为什么dim(unique(shangpin)) 和用duplicated得出来的结果不一样???