我的数据是这样的,总共有6列,理论上前两列分别是ID号,后四列是数值型变量,但是在抓数据的时候出现了串行的形式,问题主要出现在后四列上,比如有的是空格,有的出现了字符型变量,具体的我给个sample
7323017 2115412345 700 1073 473 2031
5953681 2090387456 313 58 373
7051759 1826336475 917 299 256 1151
8002567 3043612354 102 1998 65 684
377031 3121967678 621 1655 172 1072
10092211 1084445783 380 548 好吃 524
比如说第二行第四列出现了空格,最后一行第五列出现了这样的字符。另外我知道前两列ID的最大长度都不超过10,后四列的数值长度都不超过8.对于像最后一行这样的样本,我的分析是没有的,所以我需要把他踢掉,所以读入数据时我的想法很简单,就按照现在的设定读,像最后一行这样的肯定到了第五列就读不进去,变成空值,到时候我直接删除就ok。我的code如下:
我觉得没啥问题,可是出来的结果居然是这样的
前两列没问题,我就没粘,为什么1073跑到了第五列?他应该是在700的后面啊?然后下面的似乎都往后串了。求高人解答!!!