关于数据库转置（改变维度wide->long）

8645

收藏 2012-12-05

各位好，
我是rookie，在world bank的data bank里下载了Data set：
平板panel数据(cross section + time):

country (10) variables(20) year (20)

每一国家有20个变量，每个变量有20个值（按年份）
基本是wide的
参见附件：

big.xls
大小:(88.5 KB)

马上下载

如果一个变量一个变量地reshape long var, i(...) j(...)
很麻烦，有没有便捷一点的方法?

用个循环？
先变量名都整理出来，然后每次keep if var="变量名"
一个个单独存成一个tab`i'.dta
keep if var=="varname"
save tab1.dta
br
foreach i of numlist 3/25{
rename v`i' varname`i+1975'
}
drop var
reshape long varname, i(id) j(year)
* 年份是从1990-2012,　原来有
foreach i of numlist 3/25{
replace year=1985+`i' if year==`i'
}
label var varname "indicator name"

想是把上述步骤，做成个循环。
之后， merge
use tab1.dta,clear
foreach i of numlist 2/10 {
merge 1:1 id year using tab`i'.dta
drop _merge
}

save work.dta

有没有办法把那些个变量名（重新起名字）和标签名（原变量名）分别存在两个向量里，然后loop的时候，按着index提取。

或者Stata 有没有做类似事情的ado-file？或是有没有相关帖子？

各位一般都怎么搜集、整理数据呢？

麻烦各位答疑解惑，先谢谢了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

大白菜2012

2012-12-5 04:21:58

clear
insheet using C:\Users\Desktop\big.csv, names c

sort id var
egen vargp=group(var)

foreach i of numlist 3/25{
local j=2015-`i'
rename v`i' varname`j'
}

reshape long varname,i(id var) j(year)

drop var

reshape wide varname,i(id year) j(vargp)

rename varname1 ..................
..............
//now the data is ready for panel analysis

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shetianlang

2012-12-6 10:41:27

reshape long varlist（20个变量的列表）, i(country) j(year)

country要先转换为数字格式，可用encode

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-7 06:08:31

大白菜2012 发表于 2012-12-5 04:21
clear
insheet using C:\Users\Desktop\big.csv, names c

非常感谢。

发帖后，我用循环整理了一个*.dta，方法就是一个一个变量分着做，每次重新引用big.csv，然后keep if var=="age dependency rate..." 这么着做完之后rename+label的。
你的group函数相当便捷，还有这套wide-> long -> wide （j用vargp）真是通透啊！

最后rename那里想做些改善：
如果可以把一开始的var变量里的不同值提取出来存在一个（临时）向量(label)里；
然后在label的基础上，生成一个（变量名称缩写）的向量，叫acronym，
也就是说，需要一个指令能够执行提取字串中每个单词首字母的功能，
（不知道有没有Stata用户编写的类似命令，即String系列指令）。

好，现在就是生成了2个（临时）向量： label, acronym

drop var
reshape wide v, i(id year) j(vargp)

在最后就可以做个循环，用label给变量v1-v20加标签，然后再用acronym给v1-v20重命名，但是一些对应的指令不知道
foreach i of numlist 1/20{
label var v`i' "label" %% 意会，中括号[]里面为索引
rename v`i' acronym %% 意会，不知道正确的指令怎么写
}

save done.dta,replace
。

在R里面提取不同值的指令是unique()，不知道Stata有没有类似的，或是自己编一个，利用标量——_n，_N ？
尝试了一下提取distinct values of a variable:
bysort var: gen nvals=_n==1
encode var, gen(varnum) %% transform strings to numeric type
mkmat varnum if nvals==1, nomissing matrix(label)
svmat label
结果就错了存进矩阵的字串全变成数字了，即1，……，20，就这20个，其它为.(missing values)
有啥办法没？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大白菜2012

2012-12-7 11:24:00

monstersivle 发表于 2012-12-7 06:08
非常感谢。

发帖后，我用循环整理了一个*.dta，方法就是一个一个变量分着做，每次重新引用big.csv，然 ...

需要一个指令能够执行提取字串中每个单词首字母的功能，
（不知道有没有Stata用户编写的类似命令，即String系列指令）。

-----------no

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大白菜2012

2012-12-7 11:28:04

monstersivle 发表于 2012-12-7 06:08
非常感谢。

发帖后，我用循环整理了一个*.dta，方法就是一个一个变量分着做，每次重新引用big.csv，然 ...

在最后就可以做个循环，用label给变量v1-v20加标签，然后再用acronym给v1-v20重命名，但是一些对应的指令不知道
foreach i of numlist 1/20{
label var v`i' "label" %% 意会，中括号[]里面为索引
rename v`i' acronym %% 意会，不知道正确的指令怎么写
}

---------不要用循环，因为变量名都是不一样的。才20个变量，copy，paste，花不了多久

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

大白菜2012

2012-12-7 11:29:58

monstersivle 发表于 2012-12-7 06:08
非常感谢。

发帖后，我用循环整理了一个*.dta，方法就是一个一个变量分着做，每次重新引用big.csv，然 ...

在R里面提取不同值的指令是unique()，不知道Stata有没有类似的，

---------why？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-7 18:22:27

大白菜2012 发表于 2012-12-7 11:29
在R里面提取不同值的指令是unique()，不知道Stata有没有类似的，

foreach i of numlist 1/20{
label var v`i' label[`i'] %% 意会，中括号[]里面为索引
rename v`i' acronym[`i'] %% 意会，不知道正确的指令怎么写
}
label[`i'] 这个index之前没打上。

R里unique()的作用，案例：
> x<-c(1,1,2,4,5,2,9,10,4)
> unique(x)
[1] 1 2 4 5 9 10

unique()在此的用意，就是提取distinct labels
age dependency rate重复了10遍（因为10个国家），但其实只需要一个值做变量标签，其它的也是，
就是想做成：
*.dta源数据（变量型）——>矩阵（或向量）——>*.dta变量型

有些操作可以在*.dta -> *.dta的基础上做，比如reshape long/wide

有些得从矩阵绕一下，比如labels,rename，需要利用矩阵（或向量）里的索引功能，即[`i']

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大白菜2012

2012-12-7 23:16:41

monstersivle 发表于 2012-12-7 18:22
foreach i of numlist 1/20{
label var v`i' label[`i'] %% 意会，中括号[]里面为索引
rename v`i' ...

不需要这么复杂，

reshape long varname,i(id var) j(year)

drop var

reshape wide varname,i(id year) j(vargp)

之后，整个data的数据结构已经是
country year var1 var2
china 1990
..................

你只要rename1 那些个var1-var20就done了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

fgleric

2012-12-8 00:32:56

大白菜2012 发表于 2012-12-7 11:24
需要一个指令能够执行提取字串中每个单词首字母的功能，
（不知道有没有Stata用户编写的类似 ...

？？？难道不是

gen first=substr(var,1,1)?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大白菜2012

2012-12-8 00:37:53

fgleric 发表于 2012-12-8 00:32
？？？难道不是

gen first=substr(var,1,1)?

提取字串中每个单词首字母的功能
*************

"Japan is sinking"

-----> "JIS"

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-8 09:09:20

fgleric 发表于 2012-12-8 00:32
？？？难道不是

gen first=substr(var,1,1)?

不是这个，这个指令只能做到提取整个字串的首字母。
想处理的case是：字串有好几个单词，提取每个单词的首字母，比如Gross Domestic Product 提取完是GDP.
Age Dependency Rate提取完是ADR.

而substr("...",1,1)的结果分别是G和A。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

fgleric

2012-12-8 09:18:07

monstersivle 发表于 2012-12-8 09:09
不是这个，这个指令只能做到提取整个字串的首字母。
想处理的case是：字串有好几个单词，提取每个单词的 ...

貌似stata没这个命令
我能想到的就是先split，然后提取首字母组合

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-8 09:39:48

大白菜2012 发表于 2012-12-7 23:16
不需要这么复杂，

reshape long varname,i(id var) j(year)

好的，非常感谢！的确，手动rename和label更实用，即便split,substr,再合并生成首字母缩写的话，效果也不好，弃。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-8 09:52:59

fgleric 发表于 2012-12-8 09:18
貌似stata没这个命令
我能想到的就是先split，然后提取首字母组合

好的，多谢。
后来发现首字母缩写这个不太实用，比如原先字串中有分割号什么的，,(%，就废了。
还是手动命名吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-8 09:54:12

fgleric 发表于 2012-12-8 09:18
貌似stata没这个命令
我能想到的就是先split，然后提取首字母组合

好的，多谢。
后来发现首字母缩写这个不太实用，比如原先字串中有分割号什么的，,(%，就废了。
还是手动命名吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-8 09:55:02

fgleric 发表于 2012-12-8 09:18
貌似stata没这个命令
我能想到的就是先split，然后提取首字母组合

好的，多谢。
后来发现首字母缩写这个不太实用，比如原先字串中有分割号什么的，,(%，就废了。
还是手动命名吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2012-12-9 10:28:44

想处理的case是：字串有好几个单词，提取每个单词的首字母

loc a="Mr. John A. Smith"
forv i=1/`=wordcount("`a'")'{
loc b="`b'"+substr(word("`a'",`i'),1,1)
}
di "`b'"

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2012-12-9 11:46:50

*假设内存中的数据库变量是id、var、y2012、y2011、……、y1990
reshape long y,i(id var) j(year) s
egen v=group(var)
levelsof var,l(v)
token `"`v'"',p("' `")
drop var
reshape wide y,i(id year) j(v)
forv i=1/20{
la var y`i' `"``i''"'
}

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-11 10:36:08

sungmoo 发表于 2012-12-9 11:46
*假设内存中的数据库变量是id、var、y2012、y2011、……、y1990
reshape long y,i(id var) j(year) s
e ...

forvalues i=1/20{
la var y`i' `"``i''"'
}
这里没有达到预期效果：
应该是想要把刚才levelsof var, local(v)生成的v里的20个变量标签贴到y1-y20上。
可能的出错原因是macro list 里面没有v，我想也许：如果能用global的话，就能存下来了。
源码：
insheet using big.csv, names clear
foreach i of numlist 3/25 {
local j=2015-`i'
rename v`i' y`j'
}
save big.dta,replace
reshape long y,i(id var) j(year) string
egen v=group(var)
levelsof var,local(v)
token `"`v'"',p("' `")
drop var
reshape wide y,i(id year) j(v)
forvalues i=1/20{
label var y`i' `"``i''"'
}

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-11 10:42:01

sungmoo 发表于 2012-12-9 10:28
loc a="Mr. John A. Smith"
forv i=1/`=wordcount("`a'")'{
loc b="`b'"+substr(word("`a'",`i'),1,1)
...

非常感谢。先存下了，研究中。

如何应用到这个数据表里，即生成新变量，命名为acronym，简单套用无效，即：
gen new=var
forvalues i=1/`=wordcount("`var'")'{
replace new="`new'"+substr(word("`var'",`i'),1,1)
}

引用这块儿一直很晕，就是这个quotation marks `' ""。

Stata 里面几级数据：
macro, matrix, variables of data set.
用起来很别扭

可否推荐相关资料？多谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2012-12-11 10:43:15

注意前面写的前提。前提下可以运行成功。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

monstersivle

2012-12-11 11:07:06

sungmoo 发表于 2012-12-11 10:43
注意前面写的前提。前提下可以运行成功。

果然，o(╯□╰)o
可能是因为之前分步做的，乱掉了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群