如何在R中优化循环语句和多线程运行？

1801

收藏 2020-09-12

如题，读取大量文件时多次使用for循环将降低效率，主要遇到以下几个问题：（1）读取多层文件夹的数据，除了循环有什么比较好用的方法？
（2）读入json文件和提取数据、写入数据时有什么比较高效的办法？能否考虑减少循环和多线程运行？
（3）将结果df_all用RMySQL包中的dbWriteTable(con1,"data_test",df_all,overwrite=TRUE)写入MySQL数据库时，中文出现乱码，尝试使用了dbSendQuery(con1,"set names utf8")转化，还是未解决。
以下是我用比较笨的方法写的，可以正常运行，请问如何优化代码，可以提高效率。R如果使用多线程，有什么推荐的好方法，谢谢！代码如下：

复制代码

附件列表

data.zip

大小:19.86 MB

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

卫队000

2020-9-12 17:57:38

开并行计算

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tiesuoqiao

2020-9-12 22:05:52

并行计算没必要自己做，如果能接受低版本R (3.5.3) 下载一个microsoft r open就行了，否则，安装windows store里的ubuntu然后安装R 4.0 和Intel的MKL库也达到一样的效果

都可以实现自动并行计算

我试过，在Microsoft R Open下，自己设置并行计算并没有什么速度改进，因为早就自动做了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群