全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
811 0
2020-11-24
从数据字典到使用Python进行简单文本排列的元数据
尽管用于美国社区调查的强大家庭和人口档案的负载运行良好,但该数据(几乎完全是整数)代表不包含其元信息的分类属性。可以使用详细说明这些含义的数据字典,但是将字典连接到数据的难题留给了分析人员。   
我决定看看是否需要对数据字典进行纠缠,以期希望生成将元数据添加到R结构的代码-用R的话来说就是,将整数属性转换为具有级别和标签的因子。我决心不花很多时间在挑战上,而是接受一种快速而又肮脏的解决方案,该解决方案可以为我提供所需的75%。
事实证明,没有大量的工作,我确实取得了一点点成功,可惜的是,我激发了我的欲望,超越了又快又肮脏。数据字典文件非常配合,具有“规则性”,可以简化调试。
为此,我在Jupyter Notebook中使用了Python 3.5来解析字典文本,并最终针对现有的数值数据生成R因子create语句。此时,需要从Python笔记本中剪切并粘贴输出的R代码,然后在R中执行。这是一个难看的临时解决方案。最终,希望是解析将生成可在单个笔记本中无缝运行的代码。我已经有后续迭代的计划。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群