注意力内容配置。现有文献表明公司年报可以有效反映企业家的特质及状态(Marquez-Illescas et al.,2019)。参照蒋艳辉和冯楚建(2014)的研究,本文选择对上市公司年报中的管理层分析与讨论章节(Management Discussion and Analysis,MD&A)进行文本分析。文本分析首先需要构建“创新注意力”词集。参照胡楠等(2021)和Brochet et al.(2015),本文通过机器学习Word2vec这一方法寻找近义词,缓解人为定义词表的主观性和通用同近义词工具的弱相关性(LeCun et al., 2015)。利用Word2vec模型对文本语料进行训练后,生成词向量空间,为每个词分配一个向量。在向量空间中,距离越近的词意思越近,可以通过两词的距离计算相似性。具体筛选词集方式如下:第一步为选择既往中文文献中曾用过的“创新注意力”词集作为基础词(黄珊珊和邵颖红, 2017),其中包括:“创新”、“自主”、“研发”、“科研”、“新产品”、“技术”、“开发”、“研究”、“专利”。第二步根据Word2vec中的CBOW模型(连续词袋模型,Continuous Bag-of-words Model)对中文年度财务报告语料进行训练,生成词向量空间。并在词向量空间中,对基础词的相似词进行筛选。筛选标准为:财报文本语料中出现频次在1000次以上,且和基础词频相似度在30%以上的拓展词。第三步为邀请了3名业界和学术界专家对CBOW模型得到的相似词进行人工核查,并筛选出包括“发明”和“技术成果”等额外的“创新注意力”拓展词集。本文将“创新注意力”基础词集和“创新注意力”拓展词集分别作为文本分析的词典,并基于词典法对每家企业的年报中MD&A部分进行词频分析。通过计算词集中词汇总词频占MD&A总词频的比例并乘以100,得到企业家创新注意力配置指标。为了验证稳健性,本文还计算了两个指标:词集总词频占不含数字MD&A总词数的比例,词集总词频占不含数字和英文MD&A总词数的比例。这两个指标数值越大,表示企业家越注重创新。