大样本数据处理经验

3459

收藏 2017-06-02

如题，本人目前使用一套数据，包括2000W条的截面数据（分成10个文件，每个大约300多M），一半以上的变量是中文的，拿到的数据存储方式是csv格式的，现在用stata直接打开就发现一个问题，我使用stata13.1SE版本，在64位系统下，打开以后是中文是乱码，而且打开前csv300多M，打开后的dta有2.6G/个。
看论坛网友经验，本文通过以下几个途径试图解决问题：
1，可能是stata版本问题，所以我更换了stata13.1MP版本，也是这个问题，最后stata12.0下，仍然没有解决中文识别问题。2，我已经是经典模式，在个人偏好里面。
3，如果使用excel打开，试图通过excel转换，还有个问题，就是一个csv里面大约200W条数据，然后excel的极限是10W条，所以显示不全。
4，命令csvcovert命令不好用。
求问如何处理？