写论文需要用到上市公司的专业化数据,但是上经管之家和闲鱼找了一圈,都是一些数据贩子,且大多只提供一个算好的不知道来源的 n 手数据,既缺乏数据处理过程,也没有任何可信度保障。于是只能自己动手折腾。
既有文献基本都是参照范子英和彭飞 (2017) 的文章,具体指标构建如下:
如果按照文章所写的指标直接去 CSMAR 检索的话,会发现有部分指标找不到。所以我们需要将其转换为能与 CSMAR 中财报术语直接匹配的命名方式。
以下是一些需要转换的财报术语:
| 转换前 | 转换后 |
| --- | --- |
| 少数股权收益 | 少数股东权益 |
| 销售额 | 营业总收入 |
| 税后净利润 | 净利润 |
| 预付款 | 预付款项净额 |
| 应付款 | 应付账款 |
| 存货 | 存货净额 |
假设我们已经下载好所需数据。
首先,我们处理资产负债表中的内容。我们从资产负债表中可以下载到以下变量:期初预付款、期末预付款,期末应付款、期初应付款,期末应付票据、期初应付票据,期初存货、期末存货,资产总计,负债合计,少数股东权益。
导入数据,仅保留期初和期末两期,再对部分变量进行期末减期初,或期初减期末。
接下来,捯饬一下其他所需变量,包括主营业务收入,非经常性损益,**扣除非经常性损益后的加权平均净资产收益率**,购买商品、接受劳务支付的现金,营业总收入,净利润,以及行业代码。
整理好基础数据后,将前面计算好的资产负债表数据合并进去,并进行简单整理。
接下来,计算采购额、增加值与净资产,采购商品的增值税率取 17 %。
计算净资产收益率和行业平均净资产收益率:
也有文献是取行业净资产收益率的三年移动平均,算法如下:
最后,计算专业化和纵向一体化,仅保留值域在 [0,1] 之间的样本,并做缩尾处理。
看一下描述性统计
由于范老师的文章并没有汇报描述性统计,我们将这一数值与袁淳等 (2021) 的文章进行对比。
同样地,我们将样本限定在 2010-2018 年的非金融企业:
这一数值比袁淳老师的结果略大。
后面无意中发现,CSMAR 中有现成的
扣除非经常性损益后的加权平均净资产收益率。用这一变量替换前述的净资产收益率,重新计算行业平均净资产收益率:
随后,重新计算专业化与纵向一体化,并将样本限定在 2010-2018 年的非金融企业:
此时的结果与袁淳老师的高度一致,我们的均值为 0.5485,袁老师的均值为 0.5487。所以,我们的计算结果还是较为可信的。
最后,提供上述计算过程的所有原始数据、结果数据和其间用到的代码: