全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
6366 3
2014-08-10
我想解决的问题是这样的:有一数据文件
VAR1       VAR2       ……
1                A
1                B
1                C
2                B
2                D
3                E
……
相同的VAR1值对应的VAR2值是不重复的(因为我事先去除了重复项)。
该文件中数据总量很大,有几万条。VAR2中的不同值有几百个。
我想统计数据中带权重的A\B\C……出现的次数和(表示各种VAR2值的重要性)。即在上面的6组数据中A出现的次数记为1/3=0.3333,B为1/3 + 1/2=0.83333

在EXCEL中我利用公式是可以实现的,但由于数据量过大,处理起来十分缓慢(所有公式计算一次需10小时!!)。所以我想请教大家,能否用STATA实现。EXCEL中我的处理思路是,生成下面的表格,行变量是不重复的VAR1值,列变量是不重复的VAR2值。利用COUNTIFS公式计算表中各个值,各列的和就是我需要的统计量了。
         A               B                 C               D  ……
1
2
3
4
……
     A列求和   B列求和 ……

诚心求教各位高手,如何利用STATA实现上述功能,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-11 11:18:56
duplicates tag var1,gen(count1)
replace count1=count1+1
gen quan=1/count1
by var2,sort : egen var3=sum(quan)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-12 11:12:07
ermutuxia 发表于 2014-8-11 11:18
duplicates tag var1,gen(count1)
replace count1=count1+1
gen quan=1/count1
方法可行,非常感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-12 13:18:20
fujingchi 发表于 2014-8-12 11:12
方法可行,非常感谢!
不客气
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群