看到的一些理论文章里面都有很适合本文方法的样本数据供分析。但实际中是不是到手一批数据之后,并不知道该用哪种方法来对其分析合适。
有没有对数据初步“review”一下的方法,来判断是该用什么合适的方法类对其分析?
当然针对具体的行业,熟悉的业务常识可以给出一个大致的判断。
但想知道出了业务知识辅助之外,单纯的从数据角度来判断的办法有吗?
数据少些的时候可能通过先作图来观察数据的整体情况,但如果数据量和数据维度都比较大时(比如十万行、100多列的数据,更别说现在动辄有上百万的数据),这种直观的方法是不是就不好用了。这时就要特征选择、抽样等预处理工作首先进行了吗?
除了作图观察外,还有没有数值类的方法来观察数据整体情况。
请知道的高手们多多指教,多谢啊!