一个大苹果 发表于 2012-3-31 09:54 
不一定,千万至万,主要是合并、提取
从数据处理的角度来讲,需要进行预处理,包括:
1. 单个表的数据筛选, 尽量的把没用的数据先去掉,这样当多表合并的时候,效率提升很多;
2. 单个表的数据排序;
3. 如果数据量真是达到千万级别了,那建立索引的时候需要注意,如果有频繁的插入、删除操作,那面效率会损失很多。建议所以在最后数据提取的时候加进去;
4. 数据分块。千万级的数据,可以考虑并行操作,这样每次容易得到处理结果,而且内存不会占用太多,这样避免虚拟内存的使用,也会减少硬盘的操作。如果能多台机器一起操作,那么这个级别的数据,也可以很快得到结果。