金融领域文本中因果事件抽取是因果关系发现的重要步骤,也是自然语言处理子任务实体关系发现的关键组成部分。对于包含多因多果的复杂因果句,如何准确地抽取其包含的因果事件,也是事件抽取的热点问题。抽取方法在对因果句进行事件抽取时,需要保证所抽取事件的因果完整性和与语义完整性,同时尽可能多地抽取因果句中的因果事件。研究者在此基础上,可以分析财经文本因果事件包含的因果知识(情感,经济要素),进一步对因果事件进行推理,从而为宏观经济的指标构建提供重要参考内容。从财经文本中识别出的因果句,含有大量财经文本因果事件。对这些因果事件进行抽取,可以为金融领域文本事件抽取提供新的方法指导和数据支撑。
现有研究主要针对具有明显实体及实体关系的事件抽取,对类似财经领域事件元素较宽泛的事件抽取工作研究较少。由于事件的基本组成要素包括主语、谓语和宾语,为此本文提出利用语义角色与依存句法相结合的规则,使用主谓宾模式抽取因果事件。同时,在阅读财经文本因果句的过程中,有较多的句子属于包含句间因果的句子,所以有较多的句子往往其原因部分或结果部分甚至整个句子没有主语或者宾语。由于汉语句法构造的复杂性和开源工具的不完备性,一些因果句往往难以识别出关键的句法成分。为了解决事件对齐、降低抽取难度,通过自定义事件实体进行事件抽取。
一、基于句子拆解的因果部分抽取
通过构建大规模触发词词典,进而构造规则,最后识别出因果句。因果句中因果提示词所引导的因果句,其原因事件和结果事件在句中的顺序不尽相同;因果句集合中含有部分冗余句子,为了能够准确抽取出因果事件,需要对因果句集合进行去噪;在一些因果句中因果事件只是某个句子的一部分,需要保持语义完整性;部分因果句中的触发词往往只具有引导作用,为了准确抽取句中所含有的因果事件,需要基于其他线索进行抽取。
基于上述原因,需要对句子进行拆解,准确的抽取出其原因部分和结果部分,才能方便下一步的事件抽取。通过阅读大量的财经文本中的因果句,发现因果句中存在大量的句子结构特征。通过分析这些句子结构和词性特征,建立启发式规则,最后达到对因果句集合去噪以及准确抽取其原因部分和结果部分的目的。最后通过人工标注部分抽取的结果,使用后验准确率(Precision)直接验证规则的有效性。
通过观察已经抽取出的因果句,发现这些因果句中的因果提示词类型,子句个数,因果提示词所在位置都有一定的规律,于是根据这种差异定义因果句句子结构特征;按因果句中提示词类型、子句个数、因果提示词在子句中的位置(子句端,子句中,子句末)分类。
(1) 一元因果提示词(引导原因)、子句个数大于 1、因果提示词居于句首。
例 他的理由是因为为什么土地要得到地租呢?
在您看来,“一带一路”倡议将如何推动全球经济新增长?
一旦有人效法炒股,说不定就会倾家荡产,血本无归。
(2) 一元因果提示词(引导结果)、子句个数大于 1、因果提示词居于句首。
例 实际上,杠杆资金近期也在持续加码。 最终,中国于 2001 年成为 WTO 第 143 个成员,开启了中国经济外交新纪元。
(3) 一元因果提示词(引导结果)、子句个数等于 1、因果提示词居于句首。
例 进一步发挥投资在经济结构调整中的作用。
(4) 一元因果提示词(引导原因)、子句个数等于 1、因果提示词不居于句首。
例 就是因为政府把这些重点企业保护了起来。 首先我们来看经济学由于纳什或纳什均衡发生的革命性变化。
(5) 一元因果提示词(引导原因)、子句个数大于 1、因果提示词不居于句首。
例 大中城市由于具有更优质的教育资源,家长想追逐这样的教育资源,相应的校外培训机构就发展起来了。
(6) 一元因果提示词(引导结果)、因果提示词不居于句首。
例 事实上,消费对我国经济增长的拉动作用也日趋加大。 手机已经成为孩子们生活中的一个重要工具。
(7) 二元因果提示词、子句个数>1、因果提示词不在同一子句。
例 因为东部毕竟聚集了较多的高回报的新兴产业,具有更为合意的投资环境,除非政府每年以较高的递增速度不断投入巨额资金,才能保证西部地区的持久繁荣。
(8) 二元因果提示词,因果提示词在同一子句,子句个数>1。
例 前我国只有不到 30%的劳动力在第三产业中就业,发展中国家的平均水平是 45%,如果我们达到这个水平就可以再解决一二亿人的就业问题。
(9) 不规则因果提示词。
例 另一方面,是改革开放的良好市场环境,成就了富人的今天,在富人成功的过程中,有许多人起了垫脚石的作用,也有许多人为富人的今天贡献了自己的聪明才智。
(10) 因果句中含有两个以上因果提示词。
例 只有采取固定价格的产品才最容易引起抢购,最终引起价格的大幅度上涨,当大部分产品价格自由化之后,抢购便不大容易发生,而且也不大容易出现价格暴涨。
二、构建规则抽取因果部分
第一步:细分一元因果提示词词典(引导原因,引导结果)。
第二步:细分二元因果提示词词典(由因溯果,由果溯因)。
第三步:细分趋势词词典(引导原因,引导结果)。
第四步:判定因果句中因果提示词个数,因果句分解。
第五步:判定因果句长度,因果提示词所属子句位置,因果提示词在子句的位置。
第六步:根据以上规则,抽取因果部分。
三、抽取因果事件
研究发现,财经领域事件触发词大都是以谓语动词形式出现,只要应用主谓宾模板召回事件触发词的主语事件元素和宾语事件元素,基本上就召回了这个事件触发词所涉及的事件元素。
金融领域文本中的事件元素比较宽泛,很难固定在一类具体的实体,所以在事件的实际抽取过程中首先使用语义角色标注的方法得到事件触发词的施事者(即主语事件元素)和受事者(即宾语事件元素)。如果语义角色标注所得到的主语事件元素或宾语事件元素不完整,则采用依存句法分析器和规则相结合的方法抽取主语事件元素或宾语事件元素。语义角色标注与依存句法分析相结合抽取事件元素有助于提高事件抽取的准确率和召回率。
由于金融领域事件触发词大都是以谓语动词形式出现,应用主谓宾模板可以抽取到事件触发词及其主语事件元素和宾语事件元素。但是由于中文语句的句法复杂性和因果部分语义的不完整性,直接利用依存句法分析和语义角色标注可能无法抽取出一个事件的主语或宾语,为了更加方便的抽取此类句子,定义了新的事件实体。
针对因果部分的抽取构建大量的规则,其都是通过总结文本句子结构特征启发式构建形成。为了检验规则有效性,使用后验验证集验证其准确率。规则细化的同时,也会引来大量冗余,所以为了避免这种冗余,按规则后验准确率进行执行优先级排列,分支合并,形成算法。
通过定义事件实体多个类型,虽然能够简化简单因果句抽取的难度,但是会引入更多包含噪声的事件实体。实验结果中,发现大量的三元组结构会附带二元组结构,这些二元组结构和三元组结构来源于同一个谓词的抽取结果,因此构建事件序列规则进行去噪。在对定义的事件规则合并时,直接按后验准确率进行优先级合并,得到算法。
基于事件规则的基础上,为了能够从含有多谓词结构的复杂因果部分中抽取因果事件,对于每一个事件实体的抽取规则进行类型搜集,然后形成类型列表,启发式组合判定事件序列类型(并列或因果传递),形成规则。同时在数据集中,发现部分因果句因为开源工具识别精度的原因,未能准确识别出其事件实体成分。