按照楼主的意思 其实你是想 分id(机构识别号)利用个人层面数据统计各个机构中 接受培训的总人数 然后根据总人数情况 设定机构层面training变量
我觉得可以试试下面的思路(stata 命令)
collapse (sum) total_T, by(id) // 利用个人层面数据统计每个机构参加培训的总人数 其中id是每个个体所属的机构 total_T是个体层面是否接受培训的变量 为0-1型
merge 1:1 id using institution.dta // 利用id和机构层面数据合并 这里假设institution是机构层面数据
gen training=1 // 生成新变量training=1
replace training=0 if total_T<1 // 将培训人数小于1的置为0
要注意的就是数据清洗过程 比如确保 total_T不可能为负数