给各位拜年了，小弟又有问题，请教能否不用循环实现？求优化的R代码

1473

收藏 2015-01-22

算法：欲生成一个10行10列的二维表（矩阵）T，T中每个元素均为0或1。首先随机生成最后一列，即第10列。然后要求自第1列至9列，分别以递减的比率与最后一列相同。如第1列有90%的元素与最后一列相同，第9列有80%的元素与最后一列相同，依次类推，第9列有10%的元素与最后一列相同。

请教：1、生成的二维表可能会很大，如10万行，10万列，甚至更大，至少保证10万*10万时不出现内存不够的现象。2、递减可以匀速递减，也可以非匀速递减。3、第1列与最后一列的相似程度（上例为90%），以及倒数第2列与最后一列的相似程度（上例为10%）可调。

多谢各位好人了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jiangqing001

2015-1-22 13:34:24

我也是R的初学者
我对于您的问题的想法是：
1.首先内存问题这要看您的机器的，以我的经验10w*10w已经很大了，不过我是32位2GB的pc
2.不知道您这里列与列相似的概念是什么，如果是1所占的比例，那是不是用二项分布，针对参数p来做循环

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangqing001

2015-1-22 13:57:23

复制代码

在小样本下会有二项分布随机数产生1的概率不完全等于参数p的情况，但大样本应该没什么问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sqy

2015-1-22 15:17:19

嗯，楼上貌似是对的！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yukuang

2015-1-23 08:44:53

jiangqing001 发表于 2015-1-22 13:57
在小样本下会有二项分布随机数产生1的概率不完全等于参数p的情况，但大样本应该没什么问题

兄台，我试了下您的代码，貌似数据量小的情况下有误差。　能否在无论数据量大小的情况下都达到要求　？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangqing001

2015-1-23 11:31:11

yukuang 发表于 2015-1-23 08:44
兄台，我试了下您的代码，貌似数据量小的情况下有误差。　能否在无论数据量大小的情况下都达到要求　？

如果要用随机数的方法的话，不能保证在小样本下避免偏差的。
那还是考虑其他的方法吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群