全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
2314 10
2014-08-19
现有数据如下, 三个column (title,authors(不同的name用|隔开),number_authors)

Title                      Authors                                                    Number_authors
Title 1               Name A | Name B                                                 2
Title 2               Name A | Name B  | Name C                                  3
Title 3               Name A | Name C  | Name E | Name Z                     4
TITLE 4                NAME A                                                           1
TITLE 5                   NAME F | NAME Z                                            2
..
大概有20000个observations,其中
1. title是unique的
2. number_authors 取值从1-200.


现在想做的是,对每一个observation生成一系列variables(5个):at_least_x_authors_repeat. X从1-5取整数值. 变量取值0或1
也就是:at_least_1_authors_repeat; at_least_2_authors_repeat;at_least_3_authors_repeat;at_least_4_authors_repeat;
at_least_5_authors_repeat.
变量描述了在这组数据中有多少作者是重复的


变量举例描述: 比如at_least_2_authors_repeat:title3有name A, name C, name E, name Z 四个author 如果其中至少两个名字在别的observation里也同时出现过,那么at_least_2_authors_repeat = 1, 如果任意两个名字在其他observation里都没有同时出现过,那么at_least_2_authors_repeat = 0.
从目前数据看来,A 和 C 在title 2 中同时出现过,所以title 2 和title3 的at_least_2_authors_repeat取值为1.
同样的,对于at_least_3_authors_repeat,我们需要检验至少三个.

这个程序应该怎样实现的?小弟已经冥思苦想很久了,仍然没有头绪,希望各位指点一二,谢谢!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-19 11:27:15
Stata没用过,不过感觉用R处理这个问题应该不难
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-19 15:33:21
操作确实复杂,可以提供一个思路,首先建立一个名字库吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-19 19:33:05
小女子按照你的要求,随机生成200条observation,其中每篇author数最大为7,然后整理的结果如下 模拟的结果

如果结果符合你的要求,可以私信我啊,很希望能够帮到你
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-20 11:07:23
title3中的A在title1,2,4中出现,C中title2中出现,Z在title5中出现,所以at_least3=1是这样理解吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-20 11:32:49
谢谢大家的回复,由于我描述不清造成大家误解,抱歉。

已更正为:同时出现  也就是说A和C 必须同时在title1和title3出现他们的at_least2才是2.

希望可以明白一点,继续顶上来寻求帮助!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群