从数据字典到使用Python进行简单文本排列的元数据
尽管用于美国社区调查的强大家庭和人口档案的负载运行良好,但该数据(几乎完全是整数)代表不包含其元信息的分类属性。可以使用详细说明这些含义的数据字典,但是将字典连接到数据的难题留给了分析人员。
我决定看看是否需要对数据字典进行纠缠,以期希望生成将元数据添加到R结构的代码-用R的话来说就是,将整数属性转换为具有级别和标签的因子。我决心不花很多时间在挑战上,而是接受一种快速而又肮脏的解决方案,该解决方案可以为我提供所需的75%。
事实证明,没有大量的工作,我确实取得了一点点成功,可惜的是,我激发了我的欲望,超越了又快又肮脏。数据字典文件非常配合,具有“规则性”,可以简化调试。
为此,我在Jupyter Notebook中使用了Python 3.5来解析字典文本,并最终针对现有的数值数据生成R因子create语句。此时,需要从Python笔记本中剪切并粘贴输出的R代码,然后在R中执行。这是一个难看的临时解决方案。最终,希望是解析将生成可在单个笔记本中无缝运行的代码。我已经有后续迭代的计划。
题库