全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
3814 7
2015-12-08
悬赏 50 个论坛币 未解决
做关于公司出口的持续时间的分析,要用到生存分析,stata里进行生存分析所要求的格式跟我的原始数据差别很大。。所以有个重要的步骤就是数据的转化,如图
1.JPG
原始数据是蓝色圈起来的,我整理成了矩阵的形式,1表示在这一年存在出口行为;
现在我想把数据整理成右边红笔圈起来的形式:如果公司连续出口n年,那么它的出口时间Time就是n,如果中间中断以后继续出口,那么要重新作为一条新的数据记录下来——例如F吧,它中断了两次,所以前两次的记录一样Time都是2,而第三次是1,第四次也是1;Start——Time是这次持续出口事件的开始年份;var11是一个标记,表明这条数据是这个公司的第几次持续出口事件,例如F前两次是1,后两次是2和3,这样统计一下以后我再用一个duplicate去掉重复的应该就完成了。。
本菜鸟表示已经搞了三天了死活弄不出来。。。我知道你们什么都会,求大神们拯救。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-12-8 03:14:52
。。刚发现F的数据写错了,第三条F的start—time应该是2004,第四条是2006
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-8 10:47:55
T.T或者大神们是怎么进行生存分析的啊。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-8 17:38:36
我也在用生存分析写毕业论文,还要用空间生存分析,导师让我用R,不会,哭~~~~问一下楼主,你最后搞明白生存分析的整个流程了吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-16 22:02:46
你好,想请教一个问题,一篇论文中对变量的定义和数据来源的说明中,发现有些变量是时间序列数据,而有些变量是截面数据,论文的目的是用Weibull hazard model做实证分析。

比如 variable1  它所描述的数据为1970-2015的时间序列数据
     variable2  它所描述的数据为2000-2010年的平均值
     variable3  ......
     variable4  ......

     实在想不通它的数据结构是什么样子的?

是不是以下这种形式呢?先谢谢啦。

year   variable1               varible2    variable3   variable4  ...
1970        数值                 缺失        ...         ...
1971        数值                 缺失
1972        数值                 缺失
1973        数值                 缺失
1974        数值                 缺失
1975        数值                 缺失
1976        数值                 缺失
1977        数值                 缺失
1978        数值                 缺失
…         …                  …
2000        数值        2000-2015年变量2的平均值
2001        数值        2000-2015年变量2的平均值
2002        数值        2000-2015年变量2的平均值
2003        数值        2000-2015年变量2的平均值
2004        数值        2000-2015年变量2的平均值
2005        数值        2000-2015年变量2的平均值
2006        数值        2000-2015年变量2的平均值
2007        数值        2000-2015年变量2的平均值
2008        数值        2000-2015年变量2的平均值
2009        数值        2000-2015年变量2的平均值
2010        数值        2000-2015年变量2的平均值
2011        数值        2000-2015年变量2的平均值
2012        数值        2000-2015年变量2的平均值
2013        数值        2000-2015年变量2的平均值
2014        数值        2000-2015年变量2的平均值
2015        数值        2000-2015年变量2的平均值

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-16 22:02:46
你好,想请教一个问题,一篇论文中对变量的定义和数据来源的说明中,发现有些变量是时间序列数据,而有些变量是截面数据,论文的目的是用Weibull hazard model做实证分析。

比如 variable1  它所描述的数据为1970-2015的时间序列数据
     variable2  它所描述的数据为2000-2010年的平均值
     variable3  ......
     variable4  ......

     实在想不通它的数据结构是什么样子的?

是不是以下这种形式呢?先谢谢啦。

year   variable1               varible2    variable3   variable4  ...
1970        数值                 缺失        ...         ...
1971        数值                 缺失
1972        数值                 缺失
1973        数值                 缺失
1974        数值                 缺失
1975        数值                 缺失
1976        数值                 缺失
1977        数值                 缺失
1978        数值                 缺失
…         …                  …
2000        数值        2000-2015年变量2的平均值
2001        数值        2000-2015年变量2的平均值
2002        数值        2000-2015年变量2的平均值
2003        数值        2000-2015年变量2的平均值
2004        数值        2000-2015年变量2的平均值
2005        数值        2000-2015年变量2的平均值
2006        数值        2000-2015年变量2的平均值
2007        数值        2000-2015年变量2的平均值
2008        数值        2000-2015年变量2的平均值
2009        数值        2000-2015年变量2的平均值
2010        数值        2000-2015年变量2的平均值
2011        数值        2000-2015年变量2的平均值
2012        数值        2000-2015年变量2的平均值
2013        数值        2000-2015年变量2的平均值
2014        数值        2000-2015年变量2的平均值
2015        数值        2000-2015年变量2的平均值

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群