我想解决的问题是这样的:有一数据文件
VAR1 VAR2 ……
1 A
1 B
1 C
2 B
2 D
3 E
……
相同的VAR1值对应的VAR2值是不重复的(因为我事先去除了重复项)。
该文件中数据总量很大,有几万条。VAR2中的不同值有几百个。
我想统计数据中带权重的A\B\C……出现的次数和(表示各种VAR2值的重要性)。即在上面的6组数据中A出现的次数记为1/3=0.3333,B为1/3 + 1/2=0.83333
在EXCEL中我利用公式是可以实现的,但由于数据量过大,处理起来十分缓慢(所有公式计算一次需10小时!!)。所以我想请教大家,能否用STATA实现。EXCEL中我的处理思路是,生成下面的表格,行变量是不重复的VAR1值,列变量是不重复的VAR2值。利用COUNTIFS公式计算表中各个值,各列的和就是我需要的统计量了。
A B C D ……
1
2
3
4
……
A列求和 B列求和 ……