全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
1730 4
2013-07-21
大数据时代强调样本就是总体,利用所有的数据来进行预测,强调相关关系。但是如果在分析数据的时候,比如说A变量对B有影响,B变量对C变量有影响,而A变量也对C变量有直接的影响,那么我们利用A、B变量的所有数据去分析C变量的时候,会不会造成数据的重复利用?而且大数据时代强调尽可能多用与变量有关的所有数据,这是不是会造成更多的数据重复利用?因为少量的变量还可以说把重复部分剔除,但是在大数据环境下似乎没有办法做到。最近在看大数据,可是脑子里一直存在这个问题,希望高人指点!谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-9-4 16:26:51
不知道唉,感觉就像b和c都是a的函数,同时c也是b的函数,要把a和b之间的关系先关联好,再去分析c吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-8 14:48:32
这个相关性的还没考虑过
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-23 01:13:32
一般来说20%的数据反应了80%的信息,大数据似乎是为了得到20%的信息二区搜集利用80%的数据~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-23 11:58:59
个人感觉:样本就是总体。这句话值的深究。
样本是现阶段能够得到的个体,总体是所有个体构成的集合。
就像 太阳系的研究,不能说我们现在能观察到的个体就构成总体。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群