如何利用reshape2包中的cast()函数把数据转为宽格式？

xkdog

12745

收藏 2015-12-24

用reshape2包中的cast()函数，把长数据转为宽数据时，有点不知所措。

以R自带的cholesterol数据为例，它本身应当是一个molten的数据，即长数据，形式如下：

复制代码

trt总共有5个水平，1time, 2times, 4times, drugD, drugE，每个水平下都是10个观测（response）。

现在，我想把它变成宽格式，即如下形式：

1time	2times	4times	drugD	drugE
3.8612	10.3993	13.9621	16.9819	21.5119
10.3868	8.6027	13.9606	15.4576	27.2445
……	……	……	……	……

用cast()做了几次，都没有成功，看文档，也不是很明白，请教各位达人，谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

suimong

2015-12-24 15:12:07

对于一个只有两列的数据，其中必然只有1列是variable，1列是value。cast的本质是把一个一维的表变成二维的表，即行和列都是由某一列variable展开的，因此当你在cast的时候你必须提供两个variable，给列的是trt，给行的则是你每一组的observation的个数。简单粗暴的话你可以这么写：

复制代码

这和你要的结果相比多了一列，那是因为你要的结果不是一个标准的二维表，而是把行的变量给“隐藏”到行名里去了。
想要直接在cast的时候重命名的话也很简单：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xkdog

2015-12-24 21:54:08

suimong 发表于 2015-12-24 15:12
对于一个只有两列的数据，其中必然只有1列是variable，1列是value。cast的本质是把一个一维的表变成二维的表 ...

谢谢提醒！

第一段命令能实现，但是第二个命令就有问题了，具体如下：

复制代码

请问这是怎么回事？我是win7+R 3.2.2
另外，如果每个处理组中的观测数不等，又应当如何cast呢？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suimong

2015-12-25 00:04:27

xkdog 发表于 2015-12-24 21:54
谢谢提醒！

第一段命令能实现，但是第二个命令就有问题了，具体如下：请问这是怎么回事？我是win7+R 3 ...

抱歉，应该要加上library(plyr). plyr 和reshape2两个包经常搭配着一起用。
嗯，那么如果是组数不一样的话那就需要我们分组生成从1开始的序列了。用plyr可以这么写：

复制代码

这里需要添加value.var是因为dcast默认猜错了作为value的列，所以要手动指定一下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2015-12-25 09:46:24

你想要得到的那个表是不太符合R的统计思想的，这是为什么你变换起来这么费劲的原因。
在你的目标表中，同一行的不同数字之间没有内在联系，事实上，每一列中不同数字顺序是可以变换的。这与R语言认为每一行是一个“观测”的思想是不符的。

建议解决方法：
如果数据之间有其他的内在联系，就加多一列；如果没有，就拆成5个向量，而不是生硬地将这5个向量一定要装在一个数据框中，这样也解决了观测数不等的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xkdog

2015-12-25 10:38:22

suimong 发表于 2015-12-25 00:04
抱歉，应该要加上library(plyr). plyr 和reshape2两个包经常搭配着一起用。
嗯，那么如果是组数不一样的 ...

好的，非常感谢哈！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

xkdog

2015-12-25 10:44:38

cheetahfly 发表于 2015-12-25 09:46
你想要得到的那个表是不太符合R的统计思想的，这是为什么你变换起来这么费劲的原因。
在你的目标表中，同一 ...

谢谢提醒啊！

其实是这样，我并不想把这个数据通过这种变换做处理，而只是想把这个长数据转化为宽形式后，可以把数据本身用我们更常见的模式呈现出来，做成一个表格，放在讲义中，以便理解。如果是为了分析，自然是长格式要好。只是不知道如何对观测数不等的实验数据，如何用R做成常见的表格形式。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2015-12-25 15:53:14

xkdog 发表于 2015-12-25 10:44
谢谢提醒啊！

其实是这样，我并不想把这个数据通过这种变换做处理，而只是想把这个长数据转化为宽形式 ...

如果仅用于表格展示的话，Excel的数据透视表会更加方便一些。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2015-12-25 16:09:05

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xkdog

2015-12-25 23:12:07

cheetahfly 发表于 2015-12-25 15:53
如果仅用于表格展示的话，Excel的数据透视表会更加方便一些。

嗯，有道理

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xkdog

2015-12-25 23:14:18

蓝色发表于 2015-12-25 16:09

这个厉害了！大赞！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2015-12-26 22:34:19

看着各位大神在数据框变换的道路上越走越远，越走越顺，在佩服各位对函数的运用之熟练之余，不禁有些话想说。
大家先看我如何实现的：

复制代码

挺简单，是吧？因为我从头就没有考虑数据框变换的问题。

就像我在第5楼所提醒楼主的，严格来说，目标“表格”不是统计意义上的二维数据框，而是一个一维向量的“分割展示”。所以，楼主所提出的问题不是数据框变换的问题，而是一个“向量分割”的问题，中间自然而然出现了“降维”。为什么会这样？因为原数据框只有两个变量，抽取其中一个变量作为“归类”条件后，剩下一个变量是无法支撑起一个数据框。从另外一个角度说，目标“表格”的列代表不同“trt”属性，而目标表格的行不具备任何意义。

故而，用向量划分的普通函数——split（）很容易就解决了这个问题。而不需要像数据框变形的解决思路那样，一定需要引入一个“无统计意义”的新变量，无论是“obs”还是“id”。

但是，我要再次劝楼主不要用这样的二维表，尤其是在传授知识时，因为不严谨，这样的二维表容易“暗示”不存在的逻辑联系，且无法解决各分类别向量长度不相等时的问题。那应该如何呢？我建议用list的形式，比如，split（）函数的直接处理结果如下：

这就是用list的形式组装了对原向量切割后的结果，这样的逻辑非常清晰和严谨，各个子向量相互独立，不会引起误会。而且当各子向量长度不一致时，也不会存在任何问题，比如：

最后，再吐槽一下，本论坛输入“美元符号”真的有可能会带来排版上的灾难性结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2015-12-27 09:17:04

cheetahfly 发表于 2015-12-26 22:34
看着各位大神在数据框变换的道路上越走越远，越走越顺，在佩服各位对函数的运用之熟练之余，不禁有些话想说 ...

split不错，思路是很清晰，又学了一个。  我这是初学R，许多命令不知道该怎么用。（一般都是把宽的数据变成长的数据）
假如数据是长数据
region year gdp    pop
a       2011 29.0       21.3
a       2012 17.0          8.0
a       2013 23.6          3.7
b       2011    7.4       11.6
b       2012 12.5       14.5
b       2013    5.4       10.5

想变成：宽数据
  region  gdp2011  pop2011  gdp2012  pop2012  gdp2013  pop2013
   a       29.0       21.3       17.0          8.0          23.6       3.7
   b       7.4          11.6       12.5          14.5          5.4          10.5

用split是可以实现，但前面的region 就缺失了，有什么简便的方法吗？谢谢。
（用reshape是没有问题的）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xkdog

2015-12-27 14:32:05

cheetahfly 发表于 2015-12-26 22:34
看着各位大神在数据框变换的道路上越走越远，越走越顺，在佩服各位对函数的运用之熟练之余，不禁有些话想说 ...

这个思路很赞。

本来遇到这个例子，是在说明方差分析的操作中。因为要把它做成通常的表格形式，一开始自己想的方式，就是使用reshape包。另外，检验方差分析的条件时，需要对各处理组的数据是否服从正态分布一一作出检验，所以想把长格式换为宽格式，然后对之进行处理。这样的话，用split其实是更符合自己思路的方式。

感觉这个帖子的一系列回贴，都很有水平啊！强赞！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

待琢璞玉

2016-12-20 00:05:44

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

一入统计深似海

2017-1-15 11:26:24

太赞！学到了很多，谢谢分享~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群