STATA能否实现统计满足条件的观测数量的功能？

6366

收藏 2014-08-10

我想解决的问题是这样的：有一数据文件
VAR1    VAR2    ……
1             A
1             B
1             C
2             B
2             D
3             E
……
相同的VAR1值对应的VAR2值是不重复的（因为我事先去除了重复项）。
该文件中数据总量很大，有几万条。VAR2中的不同值有几百个。
我想统计数据中带权重的A\B\C……出现的次数和（表示各种VAR2值的重要性）。即在上面的6组数据中A出现的次数记为1/3=0.3333，B为1/3 + 1/2=0.83333

在EXCEL中我利用公式是可以实现的，但由于数据量过大，处理起来十分缓慢（所有公式计算一次需10小时！！）。所以我想请教大家，能否用STATA实现。EXCEL中我的处理思路是，生成下面的表格，行变量是不重复的VAR1值，列变量是不重复的VAR2值。利用COUNTIFS公式计算表中各个值，各列的和就是我需要的统计量了。
      A             B                C             D  ……
1
2
3
4
……
   A列求和 B列求和 ……

诚心求教各位高手，如何利用STATA实现上述功能，谢谢！