全部版块 我的主页
论坛 经济学人 二区 外文文献专区
932 26
2022-06-01
英文标题:
《A Bimodal Network Approach to Model Topic Dynamics》
---
作者:
Luigi Di Caro, Marco Guerzoni, Massimiliano Nuccio, Giovanni Siragusa
---
最新提交年份:
2017
---
英文摘要:
  This paper presents an intertemporal bimodal network to analyze the evolution of the semantic content of a scientific field within the framework of topic modeling, namely using the Latent Dirichlet Allocation (LDA). The main contribution is the conceptualization of the topic dynamics and its formalization and codification into an algorithm. To benchmark the effectiveness of this approach, we propose three indexes which track the transformation of topics over time, their rate of birth and death, and the novelty of their content. Applying the LDA, we test the algorithm both on a controlled experiment and on a corpus of several thousands of scientific papers over a period of more than 100 years which account for the history of the economic thought.
---
中文摘要:
本文提出了一种跨时双峰网络,即利用潜在Dirichlet分配(LDA),在主题建模的框架内分析科学领域语义内容的演变。主要贡献是主题动态的概念化及其形式化和编码为算法。为了衡量这种方法的有效性,我们提出了三个指标,跟踪主题随时间的变化、主题的出生率和死亡率以及主题内容的新颖性。应用LDA,我们在一个对照实验和一个长达100多年的数千篇科学论文的语料库上测试了该算法,这些论文描述了经济思想的历史。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-1 10:33:23
建模主题动态的双模网络方法Luigi Di Caro1,3、Marco Guerzoni1,2、Massimiliano Nuccio1,2、Giovanni Siragusa1,3Despina、都灵大学意大利计算机科学系、都灵大学大数据实验室经济和统计系“Cognetti de Martiis”,ITALYABStracts本文提出了一个跨期双峰网络,以分析主题建模框架内科学领域语义内容的演变,即使用LatentDirichlet分配(LDA)。主要贡献是主题动态的概念化及其形式化和算法的协同。为了衡量这种方法的效果,我们提出了三个指标,跟踪主题随时间的变化、出生率和死亡率以及内容的新颖性。应用LDA,我们在一个对照实验和数千名科学家的语料库上测试了该算法,这些科学家在100多年的时间里记录了经济思想的历史。关键词:主题建模、LDA、双峰网络、主题动力学、经济思想1简介科学哲学中的一个关键问题在于理解学科内科学基础的演变。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 10:33:27
继库恩(Kuhn)[1970年,第10页]之后,科学范式可以被认为是一套假设、合法的理论、方法和实验,这些都是足够新的,可以吸引一群学者,为一个领域做出贡献,并为不同的研究方向开辟足够的探索空间。我们要感谢JSTOR(www.JSTOR.org)为我们提供数据和大数据实验室(www.despena.unito.it)以及都灵大学计算机科学系的财政支持。传统观点认为,正如为硬科学和成熟科学所发展的那样,科学基础的演变包括“通过革命从一种范式到另一种范式的连续过渡”【库恩,1970年,第12页】。然而,一个科学领域通常由几个相互竞争或解决不同问题的研究范式组成,其中一个领域的革命必然涉及整个学科的影响和调整。此外,每一个新范式都承载着过去范式的现有知识遗产,这些知识往往被重新组合成新范式。社会科学尤其如此,在社会科学中,库尼斯意义上的明确科学范式的识别往往模糊不清,提及“研究传统”可能更为正确【劳丹,1978年】。然而,无论你称之为范式还是传统,不可否认的是,思维模式的存在对一种理论做出了合理的贡献。因此,我们可以假设,科学领域中知识的演变是在研究人员社区中产生的,这些研究人员共享语义来定义特定的研究问题、描述方法和确定结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 10:33:30
因此,科学领域研究传统的异质性可以用语义分析来描述。某种程度上的词语共现揭示了一种潜在的认知模式,因此,它可以捕捉科学进化的本质,这种观点并不新鲜。尽管在程序设计方面存在困难,但第一次尝试可追溯到Callon等人的工作【1983年】,并在十年后第一次公开代码发布时重新定义【Vlieger和Leydesdorff,2011年,Leydesdorff和Welbers,2011年】。随着机器学习技术的不同,尤其是在无监督学习子领域,基于语义内容对科学进行分类的挑战再次出现【Leydesdorff和Nerghes,2015年】。主题建模包括一系列算法【Blei等人,2003年】,这些算法在通过降维从大型文本数据库中提取信息方面表现尤为突出。这一特征在地图科学【Suominenand Toivanen,2015年】或新闻【DiMaggio等人,2013年】中得到了明确认可。Alghamdi和Alfalqi【2015】回顾了主题建模的四种主要方法,包括潜在语义分析(LSA)、概率LSA、延迟Dirichelet分配(LDA)和相关主题模型(CTM)。【Blei等人,2003年】中提出的LDA是最常用的方法之一。LDA基于概率贝叶斯模型检索文本中的潜在模式,其中每个文档都是由单词的多项式分布描述的潜在主题的混合物。LDA的一个主要局限性在于它无法建模和表示主题之间的关系【Alghamdi和Alfalqi,2015年】。在本文中,我们讨论了主题建模中经常出现的一个主要问题,即主题动态,或者换句话说,我们测试了一种跟踪主题随时间变化的方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 10:33:33
正如Blei和La Offerty(2006)所述,LDA是一种有效的降维方法,但它假设语料库中的文档是可交换的。相反,文章和主题是按顺序组织的,并随着时间的推移而演变。因此,开发一个统计模型不仅可以从一系列文档的语料库中确定不断演变的主题,而且可以测量和描述主题的转换及其出现和消失。在信息检索文献中,主题的动态性面临着两种方法【He等人,2009年】:一种是区分性方法,用于监测单词或混合词在文档中的分布变化,另一种是生成性方法,用于搜索整个语料库中的一般主题,然后,它分配属于每个主题的文档【Boelli等人,2009年,He等人,2009年】。Blei和Lafferty(2006)特别引入了动态主题建模(DTM),这是一类生成模型,其中每个文档主题分布和每个主题词分布都是从之前时间框架中的相同分布生成的。这种方法非常有效,因为它在不同时期的主题集之间建立了联系,并允许跟踪单个主题随时间的演变。DTM在捕捉单个主题的演变方面表现得非常好。然而,知识的进化比主题中单词相对重要性的变化要复杂得多,因为它可能还涉及新主题的创建、它们的相互重新组合以及最终它们可能的消亡。本文的主要贡献是知识演化的概念化和形式化,知识被视为不断出现和消失、合并和分裂的不同语义内容流。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 10:33:36
因此,我们提出了一种基于跨时间双峰主题网络的原始方法来计算知识进化中的关键元素。此外,本文的最终目标不是详细跟踪单个主题内发生的情况,而是制定指数,在总体水平上衡量观察到的知识动态的一些属性,例如总体新颖程度或特定时间窗口下的湍流水平。本文的结构如下:在下一节中,我们提出了一种分析概念和衡量主题演变不同模式的方法。第2.2节将其转化为分析算法,计算LDA生成的主题的合并、拆分和新颖性的一些度量。在第3.1节中,一个简单的模拟测试了该方法对arti ficialData的稳健性。最后,在第4节中,同样的算法被应用于经济学中的一个大型论文数据集:主要结果通过描述过去一个世纪中经济科学主题的演变来呈现和讨论。2知识演化的概念化在本文中,我们关注主题随时间的动态演化。通过DTM,每个主题Kt都链接到Kt+1,创建一个跨文档覆盖年份的主题链。具体而言,Blei和Lafferty【2006】通过将每文档主题分布α和每主题词分布βt,kin a sate space模型与高斯噪声:βt,k |βt链接,将时间t-1的每个主题映射到t中的主题-1,k~ N(βt-1,k,σI)(1)αt |αt-1.~ N(αt-1,δI)(2)这种方法在跟踪同一主题的增量变化方面表现很好,但它不侧重于揭示出生、死亡或主题的可能组合,并且在模型中设定了恒定数量的主题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群