全部版块 我的主页
论坛 经济学人 二区 外文文献专区
323 6
2022-06-14
英文标题:
《Constructing Financial Sentimental Factors in Chinese Market Using
  Natural Language Processing》
---
作者:
Junfeng Jiang, Jiahao Li
---
最新提交年份:
2018
---
英文摘要:
  In this paper, we design an integrated algorithm to evaluate the sentiment of Chinese market. Firstly, with the help of the web browser automation, we crawl a lot of news and comments from several influential financial websites automatically. Secondly, we use techniques of Natural Language Processing(NLP) under Chinese context, including tokenization, Word2vec word embedding and semantic database WordNet, to compute Senti-scores of these news and comments, and then construct the sentimental factor. Here, we build a finance-specific sentimental lexicon so that the sentimental factor can reflect the sentiment of financial market but not the general sentiments as happiness, sadness, etc. Thirdly, we also implement an adjustment of the standard sentimental factor. Our experimental performance shows that there is a significant correlation between our standard sentimental factor and the Chinese market, and the adjusted factor is even more informative, having a stronger correlation with the Chinese market. Therefore, our sentimental factors can be important references when making investment decisions. Especially during the Chinese market crash in 2015, the Pearson correlation coefficient of adjusted sentimental factor with SSE is 0.5844, which suggests that our model can provide a solid guidance, especially in the special period when the market is influenced greatly by public sentiment.
---
中文摘要:
在本文中,我们设计了一个综合算法来评估中国市场的情绪。首先,借助web浏览器自动化,我们自动抓取多个有影响力的金融网站的大量新闻和评论。其次,我们利用汉语语境下的自然语言处理技术,包括标记化、Word2vec单词嵌入和语义数据库WordNet,计算这些新闻和评论的Senti分数,然后构建情感因素。在这里,我们构建了一个特定于金融的情感词汇,以便情感因素能够反映金融市场的情绪,而不是幸福、悲伤等一般情绪。第三,我们还对标准情感因素进行了调整。我们的实验结果表明,我们的标准情绪因素与中国市场之间存在显著的相关性,调整后的因素信息量更大,与中国市场的相关性更强。因此,我们的情感因素可以作为投资决策的重要参考。特别是在2015年中国股市崩盘期间,调整后的情绪因素与苏格兰和南方能源公司的皮尔逊相关系数为0.5844,这表明我们的模型能够提供坚实的指导,尤其是在市场受公众情绪影响较大的特殊时期。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 02:34:46
用自然语言处理构建中国市场的金融情感因素蒋俊峰*+,李嘉浩*+*似然科技+中山大学{Jiangjf6,lijh76}@mail2。系统单元。埃杜。cnAbstract在本文中,我们设计了一个综合算法来评估中国市场的情绪。首先,在web浏览器自动化的帮助下,我们自动抓取多个金融网站的大量新闻和评论。其次,我们利用汉语语境下的自然语言处理(NLP)技术,包括标记化、Word2vec单词嵌入和语义数据库WordNet,计算这些新闻和评论的Senti分数,然后构建情感因素。在这里,我们构建了一个特定于金融的实体词汇,以便情感因素能够反映金融市场的情绪,而不是幸福、悲伤等一般情绪。第三,我们还对标准情感因素进行了调整。我们的实验结果表明,标准情绪因素与中国市场之间存在显著相关性,调整后的因素信息量更大,与中国市场具有较强的相关性。因此,我们的情感因素可以作为投资决策的重要参考。特别是在2015年中国股市崩盘期间,调整后的情绪因素与苏格兰和南方能源公司的皮尔逊相关系数为0.5844,这表明我们的模型可以提供一个很好的指导,尤其是在市场深受公众情绪影响的特殊时期。索引词;自然语言处理;Word2Vec;WordNet;情绪分析;我
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 02:34:49
自然语言处理作为机器学习中最有前途的领域之一,近年来取得了巨大的发展,并在社会的许多方面得到了应用。许多研究还将NLP技术应用于金融市场。应用NLP的困难在于自然语言不是一种结构化数据。寻找一种处理此类非结构化数据的方法是NLP的主要重点。许多模型在将自然语言数据转换为更易于处理的数值数据方面做得很好。随着这些模型的实现,使用自然语言数据变得可能和容易。一些模型基于朴素贝叶斯的思想[1]。这些模型背后的逻辑是:表达相同情感的词语将同时更频繁地出现。这些模型通常选择一些词作为标签词。通过对大量文本中出现的词语进行分析,研究这些标签词的频率与其他词语频率之间的关系,可以对词语进行聚类。对于任何给定的文本,它都可以使用这些词来评估背后的情绪。研究表明,这种方法可以成功地评估推特或新闻等文本的感知。通过利用这种情绪,投资者可以做出适当的投资决策。然而,这种方法有其自身的局限性。主要是他们只关注几个词。一些表达类似情感但不经常出现的新词将被忽略。有时不幸的是,这些词在分析文本情感时确实起到了重要作用。信息的丢失会对评估的准确性造成很大的损害。这项研究旨在用尽可能多的词语来分析情绪。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 02:34:51
本研究的具体步骤如下:o自动从多个金融网站下载新闻。o对我们从互联网上抓取的新闻进行预处理。o找到一种方法或一些算法来分析每个处理的文本数据,并最终通过当天的新闻计算每天的情感因素选择适当的标准来分析情绪因素与市场趋势之间的相关性,并判断我们的因素在金融投资中是否有用。我们使用的代码是Github中的开源代码。本文的剩余部分安排如下:第二部分介绍了捷巴、Word2vec和WordNet的研究背景和相关工作。第3节显示了我们在分析中使用的方法和数据。第4节包含了实验结果和讨论。最后,在第5节中,我们提出了我们的结论。二、相关工作A。汉语的杰巴斯标记化比英语复杂得多。为了标记英语单词,我们只需要用空格或标点符号将单词拆分成句子。汉语单词之间没有空格。因此,需要额外的标记化步骤。https://github.com/Coldog2333/Financial-NLPJieba中文文本标记化是一种中文单词标记化模块。解霸算法是一种概率语言建模算法。它基于字典先验地生成一个trie树,并计算字典中单词的频率。在处理需要标记化的句子时,它会生成一个DAG(DirectedArcyclic Graph)来记录每个可能的标记化。Dag是字典,其中键是单词在句子中的起始位置,值是可能的结束位置列表。对于DAG中每一个可能的单词,Jieba都会根据先验词典计算它们的概率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 02:34:54
然后找到从内容右侧到左侧概率最大的路径。这条概率最大的路径为我们提供了最可能的标记化。在句子包含字典中没有的单词的情况下,Jieba使用HMM(隐马尔可夫模型)和Viterbi算法进行标记化。根据单词中可能的条件,每个字符有四个条件:B(Begin)、M(Middle)、E(End)和S(Single)。将字典中没有的单词标记化的过程主要基于它们的条件。通过对大量文本的训练得到三个概率表,贾巴然后应用维特比算法计算单词的最可能条件,并使用条件链进行标记化。B、 Word2vec 2013年,谷歌发布了一款功能强大的工具,名为Word2vec[2]。它包含两个模型,一个是跳过gram,另一个是连续词包(CBOW)。通过word2vecmodel,我们可以将特定单词转换为可计算的数字向量。此外,可以说,它可以很好地表达两个不同单词之间的相似度和类比度。自word2vec问世以来,它在自然语言处理中得到了广泛的应用,其原有的模型和训练方法也启发了后来的许多单词嵌入模型和算法。现在,我们通过一个英文示例介绍Word2VEC模型。1) Skip gram:在Skip gram中,我们关注一个单词,并使用它来预测哪些单词将出现在它周围。例如,“男孩崇拜那个女孩”,我们可以很容易地获得五个背景词,如“the”、“boy”、“adores”、“that”、“girl”,因为我们在每两个词之间都有空格。让“adores”作为中心词,并将窗口大小设置为2,然后,在Skip-gram中,我们感兴趣的是给定中心词下每个背景词的条件概率,其中背景词在两个词中与中心词分开。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 02:34:57
这就是Skip-gram的主要思想。让我们用严格的数学语言来描述Skip-gram模型。假设字典索引D集的大小为D,并表示为D={1,2,。。。,D}. 给定一个长度为T的文本序列,tthword表示为w(T)。当windowsize等于m时,Skip-gram要求我们在任意中心词下,最大化每个背景词在m个词中与中心词分离的所有条件概率的总和。TYt=1年-m级≤j≤m、 j6=0,1≤t+j≤TP(w(t+j)w(t))(1)那么,似然函数是,TXt=1X-m级≤j≤m、 j6=0,1≤t+j≤TlogP(w(t+j)w(t))(2)最大化上述似然函数,最小化以下损失函数,-TTXt=1X-m级≤j≤m、 j6=0,1≤t+j≤TlogP(w(t+j)w(t))(3)表示中心词和背景词的向量v和u,即对于索引为i的词,当它作为中心词和背景词时,v和u是向量。我们要训练的模型参数是每个单词的两种向量。为了将模型参数实现为lossfunction,我们应该用模型参数来表示背景词在给定中心词下的条件概率。假设在给定中心词时,生成每个背景词是相互独立的,那么对于中心词wc和背景词wb,b,c是它们在词典中的索引。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群