数据合并哪里错了？

6837

收藏 2011-05-01

高人：我需要按code 和date合并，mater data是Dat1,但dat2里的数据多，按code和date合并，二个数据库不是一对一。我试过cross 和joinby, merge，合并出来的数据个数介于dat1和dat2之间，请问如何解决？谢谢！下面是数据：
Dat1

Code

date

rev

2009

2010

2009

2010

2009

2010

Dat2

Code

date

ast

tax

2008

2009

2008

2009

2010

2008

2009

2008

2010

2009

2010

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

wpwpwppopo

2011-5-1 14:42:41

直接用join就可以了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 16:20:25

wpwpwppopo 发表于 2011-5-1 14:42 直接用join就可以了

stata中有"join"这个命令？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 16:21:00

costmanagement 发表于 2011-5-1 13:09 高人：我需要按code 和date合并，mater data是Dat1,但dat2里的数据多，按code和date合并，二个数据库不是一对一。

你想要的合并结果是什么？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-1 18:03:05

我需要合并成这样：
Code date rev ast tax
J1 2009 34 1 10
J1 2010 50 6 13
J2 2009 37 3 13
J2 2010 38 7 13
J3 2009 52 2 12
J3 2010 13 9 14

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 19:12:33

costmanagement 发表于 2011-5-1 18:03 我需要合并成这样：
Code       date          rev       ast       tax
J1       2009       34       1       10
J1       2010       50       6       13
J2       2009       37       3       13
J2       2010       38       7       13
J3       2009       52       2       12
J3       2010       13       9       14

*以下即可实现以上结果：
use Dat1.dta,clear
joinby Code date using Dat2.dta

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

costmanagement

2011-5-1 21:09:15

用了这个命令，问题是最后合并的个数多于dat1，小于dat2。我需要的个数是与dat1一样的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 21:31:20

costmanagement 发表于 2011-5-1 21:09 用了这个命令，问题是最后合并的个数多于dat1，小于dat2。我需要的个数是与dat1一样的。

你能把dat1与dat2贴出来吗？

仅就你前面贴出来的，可以得到上面这个结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-1 22:58:43

用joinby合并后，数据不是多于就是小于dat1.dta的数据。用merge 1:1_n合并的数据是错的。
code date industry
000002 31 Dec 00 J
000002 31 Dec 01 J
000002 31 Dec 02 J
000002 31 Dec 03 J
000002 31 Dec 04 J
000002 31 Dec 05 J
000002 31 Dec 06 J
000002 31 Dec 07 J
000002 31 Dec 08 J
000004 31 Dec 00 F
000004 31 Dec 01 G
000004 31 Dec 02 G
000004 31 Dec 04 G
000004 31 Dec 05 G
000004 31 Dec 06 G
000004 31 Dec 07 G
000004 31 Dec 08 G
000005 31 Dec 00 M
000005 31 Dec 01 J
000005 31 Dec 02 J
000005 31 Dec 03 J
000005 31 Dec 04 J
000005 31 Dec 05 J
000005 31 Dec 06 J
000005 31 Dec 07 J
000006 31 Dec 00 J
000006 31 Dec 01 J
000006 31 Dec 02 J
000006 31 Dec 04 J
000006 31 Dec 05 J
000006 31 Dec 06 J
000006 31 Dec 07 J
000006 31 Dec 08 J
000007 31 Dec 00 C
000007 31 Dec 01 C
000007 31 Dec 03 J
000007 31 Dec 05 J
000007 31 Dec 06 J
000007 31 Dec 07 J
000007 31 Dec 08 J
000008 31 Dec 00 M
000008 31 Dec 01 M
000008 31 Dec 02 M
000008 31 Dec 03 M
000008 31 Dec 04 M
000008 31 Dec 05 M
000008 31 Dec 08 M
000009 31 Dec 00 M
000009 31 Dec 01 M
000009 31 Dec 02 M
000009 31 Dec 03 M
000009 31 Dec 04 M
000009 31 Dec 05 M
000009 31 Dec 06 M
000009 31 Dec 07 M
000010 31 Dec 00 H
000010 31 Dec 02 C
000010 31 Dec 03 C
000010 31 Dec 05 C
000010 31 Dec 07 C
000010 31 Dec 08 C
000011 31 Dec 00 J
000011 31 Dec 01 J
000011 31 Dec 02 J
000011 31 Dec 03 J
000011 31 Dec 04 J
000011 31 Dec 05 J
000011 31 Dec 07 J
000011 31 Dec 08 J
000012 31 Dec 02 C
000012 31 Dec 03 C
000012 31 Dec 04 C
000012 31 Dec 05 C
000012 31 Dec 06 C
000012 31 Dec 07 C
000012 31 Dec 08 C
000014 31 Dec 01 J
000014 31 Dec 02 J
000014 31 Dec 04 J
000014 31 Dec 06 J

dat2.dta
code date cash inc
000002 31 Dec 00 1.136e+08 J
000002 30 Jun 01 J
000002 31 Dec 01 1.262e+08 J
000002 30 Jun 02 J
000002 31 Dec 02 1.354e+08 J
000002 30 Jun 03 J
000002 31 Dec 03 75787596 J
000002 30 Jun 04 J
000002 31 Dec 04 3.411e+08 J
000002 30 Jun 05 J
000002 31 Dec 05 5.955e+08 J
000002 30 Jun 06 J
000002 31 Dec 06 6.555e+08 J
000002 30 Jun 07 J
000002 31 Dec 07 6.872e+08 J
000002 30 Jun 08 J
000002 31 Dec 08 5.498e+08 J
000002 30 Jun 09 J
000002 31 Dec 09 7.697e+08 J
000002 30 Jun 10 J
000002 31 Dec 10 1.100e+09 J
000004 31 Dec 00 G
000004 30 Jun 01 G
000004 31 Dec 01 4198834 G
000004 31 Dec 01 4198834 G
000004 30 Jun 02 G
000004 31 Dec 02 2519301 G
000004 30 Jun 03 G
000004 31 Dec 03 G
000004 30 Jun 04 G
000004 31 Dec 04 G
000004 30 Jun 05 G
000004 31 Dec 05 G
000004 30 Jun 06 G
000004 31 Dec 06 G
000004 30 Jun 07 G
000004 31 Dec 07 G
000004 30 Jun 08 G
000004 31 Dec 08 G
000004 30 Jun 09 G
000004 31 Dec 09 G
000004 30 Jun 10 G
000005 31 Dec 00 7409599 J
000005 31 Dec 00 7409599 J
000005 30 Jun 01 J
000005 31 Dec 01 J
000005 30 Jun 02 J
000005 31 Dec 02 J
000005 30 Jun 03 J
000005 31 Dec 03 J
000005 30 Jun 04 J
000005 31 Dec 04 J
000005 30 Jun 05 J
000005 31 Dec 05 J
000005 30 Jun 06 J
000005 28 Jul 06 J
000005 31 Dec 06 J
000005 30 Jun 07 J
000005 31 Dec 07 J
000005 30 Jun 08 J
000005 31 Dec 08 J
000005 30 Jun 09 J
000005 31 Dec 09 J
000005 30 Jun 10 J
000006 31 Dec 00 50718326 J
000006 30 Jun 01 J
000006 31 Dec 01 32966912 J
000006 31 Dec 01 32966912 J
000006 30 Jun 02 J
000006 31 Dec 02 20287330 J
000006 30 Jun 03 J
000006 31 Dec 03 J
000006 30 Jun 04 J
000006 31 Dec 04 19019372 J
000006 30 Jun 05 J
000006 31 Dec 05 45646494 J
000006 30 Jun 06 J
000006 31 Dec 06 88757071 J
000006 30 Jun 07 J
000006 31 Dec 07 25359163 J
000006 30 Jun 08 J
000006 31 Dec 08 40574661 J
000006 30 Jun 09 J
000006 31 Dec 09 60861991 J
000006 30 Jun 10 J
000006 31 Dec 10 45646494 J
000007 31 Dec 00 J
000007 30 Jun 01 J
000007 31 Dec 01 J
000007 31 Dec 01 J
000007 30 Jun 02 J
000007 31 Dec 02 J
000007 31 Dec 02 J
000007 30 Jun 03 J
000007 31 Dec 03 J
000007 31 Dec 03 J
000007 30 Jun 04 J
000007 31 Dec 04 J
000007 30 Jun 05 J
000007 31 Dec 05 J
000007 30 Jun 06 J
000007 11 Aug 06 J
000007 31 Dec 06 J
000007 30 Jun 07 J
000007 31 Dec 07 J
000007 30 Jun 08 J
000007 31 Dec 08 J
000007 30 Jun 09 J
000007 31 Dec 09 J
000007 30 Jun 10 J
000008 31 Dec 00 M
000008 31 Dec 00 M
000008 30 Jun 01 M
000008 31 Dec 01 M
000008 30 Jun 02 M
000008 31 Dec 02 M
000008 30 Jun 03 M
000008 31 Dec 03 M
000008 30 Jun 04 M
000008 31 Dec 04 M
000008 30 Jun 05 M

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 23:11:12

能直接上传.dta文件吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-1 23:27:52

请看附件，要按name1.dta来合并，谢谢！

附件列表

dat.rar

大小:9.13 KB

马上下载

本附件包括：

cash.dta
name1.dta

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 23:36:14

costmanagement 发表于 2011-5-1 23:27 请看附件，要按name1.dta来合并

可否把话说得完整、详细些？什么叫“按name1.dta合并”？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 23:37:25

提问时，不能假设别人的大脑中天然装有了自己前在的思路。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-1 23:39:02

你上传的文件中，哪个是dat1哪个是dat2，你想要怎样的结果（合并原则）？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-2 00:14:44

抱歉抱歉! 刚才是举的简单例子。这么晚了您还在为民众排忧解难，感动，俺是没办法。name1.dta就是dta1,是小数据； cash.dta,就是dat2，是大数据。现在要按name1.dat数据的number 和date合并.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-5-2 00:55:59

costmanagement 发表于 2011-5-1 21:09 用了这个命令，问题是最后合并的个数多于dat1，小于dat2。我需要的个数是与dat1一样的。

cash中有（对于各变量完全相同的）重复观测值：共有100个观测值涉及重复；

name1中无重复观测值。

去除cash中的重复观测值后，cash共有1900个观测值；name1共有1000个观测值。

其中，对于number与date的观测值而言，cash与name1共有的（可匹配的）观测值有608个；仅cash有的观测值1292个；仅name1有的观测值392个。

你要舍弃仅cash有的1292个观测值吗？

use cash,clear
duplicates drop
joinby number date using name1, unm(u)
recode cash(.=0)

本题其实是一个很简单的问题：cash有重复观测值。然而，如果不给出完整的数据库，（仅就楼主最初给的数据而言）这一问题是无法发现与解决的。

如果楼主一开始就把完整的数据库给出来，并说明：要按（两数据库共有的）某些关键变量匹配合并两数据库，且去除仅某库具有的不匹配观测值，就不必费这么大周折了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-2 01:43:56

我要保留name1.dta的所有数，没有匹配上的cash设为0.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-2 01:51:18

我是不是先将缺失值用0代替后在合并？这样name1合并的数都保留？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wpwpwppopo

2011-5-2 14:05:05

版主热心，

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

costmanagement

2011-5-2 20:33:07

Bingo,非常感谢Sungmoo的耐心详细的回答！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群