全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1412 6
2015-01-22

算法:欲生成一个1010列的二维表(矩阵)TT中每个元素均为01。首先随机生成最后一列,即第10列。然后要求自第1列至9列,分别以递减的比率与最后一列相同。如第1列有90%的元素与最后一列相同,第9列有80%的元素与最后一列相同,依次类推,第9列有10%的元素与最后一列相同。

请教:1、生成的二维表可能会很大,如10万行,10万列,甚至更大,至少保证10*10万时不出现内存不够的现象。2、递减可以匀速递减,也可以非匀速递减。3、第1列与最后一列的相似程度(上例为90%),以及倒数第2列与最后一列的相似程度(上例为10%)可调。

多谢各位好人了!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-22 13:34:24
我也是R的初学者
我对于您的问题的想法是:
1.首先内存问题这要看您的机器的,以我的经验10w*10w已经很大了,不过我是32位2GB的pc
2.不知道您这里列与列相似的概念是什么,如果是1所占的比例,那是不是用二项分布,针对参数p来做循环

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 13:57:23
复制代码


在小样本下会有二项分布随机数产生1的概率不完全等于参数p的情况,但大样本应该没什么问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 15:17:19
嗯,楼上貌似是对的!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-23 08:44:53
jiangqing001 发表于 2015-1-22 13:57
在小样本下会有二项分布随机数产生1的概率不完全等于参数p的情况,但大样本应该没什么问题
兄台,我试了下您的代码,貌似数据量小的情况下有误差。 能否在无论数据量大小的情况下都达到要求 ?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-23 11:31:11
yukuang 发表于 2015-1-23 08:44
兄台,我试了下您的代码,貌似数据量小的情况下有误差。 能否在无论数据量大小的情况下都达到要求 ?
如果要用随机数的方法的话,不能保证在小样本下避免偏差的。
那还是考虑其他的方法吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群