全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1356 0
2020-11-11
ff和R中的内存太大数据-第III部分
ff通过提供“存储在磁盘上但几乎(就像)它们在RAM中的数据结构,通过透明地仅映射主内存中的一个部分(页面大小)来解决R的内存限制-每个ff对象的有效虚拟内存消耗... ......除了基本的访问功能外,ff软件包还提供了兼容性功能,这些功能有助于为ff和ram对象编写代码,并支持对ff对象(例如as.ram,as.ff,ffapply)进行批处理。
R开发人员可以使用ff / ffbase函数完成很多工作。许多存储器的性能与存储器相同。此外,还有许多仅基于ff的函数可扩展ff对于内存不足数据的功能。las,某些重要的内存数据处理和建模工具没有类似物-最终迫使开发人员不得不自己承担许多任务。
那封电子邮件提示了ff / ffbase是否可以像MonetDB一样为我承担类似功能的问题:将大于RAM的数据存储在文件中,该文件可以有效地将按需子集“服务”到R data.tables /data.frames。因此,我决定使用113670794行和111列的排期数据来给ff镜头,这是R开发人员最喜欢的。  
我最终将为该分析而构建的fst文件用作数据加载起点,最终将6个临时data.frames绑定到ff数据结构中。然后,我开发了一些函数来构建元数据并生成子集的data.tables,而无需首先返回所有数据。
该方法是将较大的ff结构查询“分解”为“ where”属性和“ select”属性。然后,我确定那些满足where子句的记录的行号,并最终构建由where行号预先设置的选择列的data.table。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群