一种双峰网络主题动力学建模方法

2022-6-1 10:33:23

建模主题动态的双模网络方法Luigi Di Caro1,3、Marco Guerzoni1,2、Massimiliano Nuccio1,2、Giovanni Siragusa1,3Despina、都灵大学意大利计算机科学系、都灵大学大数据实验室经济和统计系“Cognetti de Martiis”，ITALYABStracts本文提出了一个跨期双峰网络，以分析主题建模框架内科学领域语义内容的演变，即使用LatentDirichlet分配（LDA）。主要贡献是主题动态的概念化及其形式化和算法的协同。为了衡量这种方法的效果，我们提出了三个指标，跟踪主题随时间的变化、出生率和死亡率以及内容的新颖性。应用LDA，我们在一个对照实验和数千名科学家的语料库上测试了该算法，这些科学家在100多年的时间里记录了经济思想的历史。关键词：主题建模、LDA、双峰网络、主题动力学、经济思想1简介科学哲学中的一个关键问题在于理解学科内科学基础的演变。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:27

继库恩（Kuhn）[1970年，第10页]之后，科学范式可以被认为是一套假设、合法的理论、方法和实验，这些都是足够新的，可以吸引一群学者，为一个领域做出贡献，并为不同的研究方向开辟足够的探索空间。我们要感谢JSTOR（www.JSTOR.org）为我们提供数据和大数据实验室（www.despena.unito.it）以及都灵大学计算机科学系的财政支持。传统观点认为，正如为硬科学和成熟科学所发展的那样，科学基础的演变包括“通过革命从一种范式到另一种范式的连续过渡”【库恩，1970年，第12页】。然而，一个科学领域通常由几个相互竞争或解决不同问题的研究范式组成，其中一个领域的革命必然涉及整个学科的影响和调整。此外，每一个新范式都承载着过去范式的现有知识遗产，这些知识往往被重新组合成新范式。社会科学尤其如此，在社会科学中，库尼斯意义上的明确科学范式的识别往往模糊不清，提及“研究传统”可能更为正确【劳丹，1978年】。然而，无论你称之为范式还是传统，不可否认的是，思维模式的存在对一种理论做出了合理的贡献。因此，我们可以假设，科学领域中知识的演变是在研究人员社区中产生的，这些研究人员共享语义来定义特定的研究问题、描述方法和确定结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:30

因此，科学领域研究传统的异质性可以用语义分析来描述。某种程度上的词语共现揭示了一种潜在的认知模式，因此，它可以捕捉科学进化的本质，这种观点并不新鲜。尽管在程序设计方面存在困难，但第一次尝试可追溯到Callon等人的工作【1983年】，并在十年后第一次公开代码发布时重新定义【Vlieger和Leydesdorff，2011年，Leydesdorff和Welbers，2011年】。随着机器学习技术的不同，尤其是在无监督学习子领域，基于语义内容对科学进行分类的挑战再次出现【Leydesdorff和Nerghes，2015年】。主题建模包括一系列算法【Blei等人，2003年】，这些算法在通过降维从大型文本数据库中提取信息方面表现尤为突出。这一特征在地图科学【Suominenand Toivanen，2015年】或新闻【DiMaggio等人，2013年】中得到了明确认可。Alghamdi和Alfalqi【2015】回顾了主题建模的四种主要方法，包括潜在语义分析（LSA）、概率LSA、延迟Dirichelet分配（LDA）和相关主题模型（CTM）。【Blei等人，2003年】中提出的LDA是最常用的方法之一。LDA基于概率贝叶斯模型检索文本中的潜在模式，其中每个文档都是由单词的多项式分布描述的潜在主题的混合物。LDA的一个主要局限性在于它无法建模和表示主题之间的关系【Alghamdi和Alfalqi，2015年】。在本文中，我们讨论了主题建模中经常出现的一个主要问题，即主题动态，或者换句话说，我们测试了一种跟踪主题随时间变化的方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:33

正如Blei和La Offerty（2006）所述，LDA是一种有效的降维方法，但它假设语料库中的文档是可交换的。相反，文章和主题是按顺序组织的，并随着时间的推移而演变。因此，开发一个统计模型不仅可以从一系列文档的语料库中确定不断演变的主题，而且可以测量和描述主题的转换及其出现和消失。在信息检索文献中，主题的动态性面临着两种方法【He等人，2009年】：一种是区分性方法，用于监测单词或混合词在文档中的分布变化，另一种是生成性方法，用于搜索整个语料库中的一般主题，然后，它分配属于每个主题的文档【Boelli等人，2009年，He等人，2009年】。Blei和Lafferty（2006）特别引入了动态主题建模（DTM），这是一类生成模型，其中每个文档主题分布和每个主题词分布都是从之前时间框架中的相同分布生成的。这种方法非常有效，因为它在不同时期的主题集之间建立了联系，并允许跟踪单个主题随时间的演变。DTM在捕捉单个主题的演变方面表现得非常好。然而，知识的进化比主题中单词相对重要性的变化要复杂得多，因为它可能还涉及新主题的创建、它们的相互重新组合以及最终它们可能的消亡。本文的主要贡献是知识演化的概念化和形式化，知识被视为不断出现和消失、合并和分裂的不同语义内容流。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:36

因此，我们提出了一种基于跨时间双峰主题网络的原始方法来计算知识进化中的关键元素。此外，本文的最终目标不是详细跟踪单个主题内发生的情况，而是制定指数，在总体水平上衡量观察到的知识动态的一些属性，例如总体新颖程度或特定时间窗口下的湍流水平。本文的结构如下：在下一节中，我们提出了一种分析概念和衡量主题演变不同模式的方法。第2.2节将其转化为分析算法，计算LDA生成的主题的合并、拆分和新颖性的一些度量。在第3.1节中，一个简单的模拟测试了该方法对arti ficialData的稳健性。最后，在第4节中，同样的算法被应用于经济学中的一个大型论文数据集：主要结果通过描述过去一个世纪中经济科学主题的演变来呈现和讨论。2知识演化的概念化在本文中，我们关注主题随时间的动态演化。通过DTM，每个主题Kt都链接到Kt+1，创建一个跨文档覆盖年份的主题链。具体而言，Blei和Lafferty【2006】通过将每文档主题分布α和每主题词分布βt，kin a sate space模型与高斯噪声：βt，k |βt链接，将时间t-1的每个主题映射到t中的主题-1，k~ N（βt-1，k，σI）（1）αt |αt-1.~ N（αt-1，δI）（2）这种方法在跟踪同一主题的增量变化方面表现很好，但它不侧重于揭示出生、死亡或主题的可能组合，并且在模型中设定了恒定数量的主题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-6-1 10:33:39

相反，我们感兴趣的是发现语料库中主题的结构变化，并了解解释它的潜在主题动态。因此，我们不关注单一主题的演变。跨主题的跨时间链接并不像DTM中那样是模型估计中的一个约束条件，但它是通过观察独立LDA生成的主题之间的相似性（词语的共现）在实证分析中事后引入的。更详细地说，虽然DTM通过链接高斯分布对组合随机变量序列进行建模（从而在模型中直接体现topicsdynamics），但我们的方法对单个和静态LDA进行操作，以便在模型外跟踪和测量此类动态。积累知识的语料库主题结构的演变有两个主要原因。一方面，任何认知社区（例如新闻工作者或科学家）都可以将他们的智力兴趣转移到新的问题和议题上，这将导致不同的选择、频率和词语的共现。另一方面，语言不断演变，新单词、命名实体、首字母缩略词等出现，而其他单词则因同一社区对它们的使用越来越少而消失。我们排除了第二种情况，因为我们假设在短时间内，语言是相当稳定的。在这种假设下，当比较两个不同（尽管相邻）时间窗口中主题建模练习生成的主题时，我们应该能够捕捉科学辩论的演变，并突出主题的诞生、死亡和重组。在一个极端情况下，我们可以发现一种情况，即知识不会进化，因此主题是稳定的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:42

另一方面，我们计算出新话题出现时，与现有话题没有任何语义关联的最大动荡程度。在后一种情况下，我们可以假设过去主题的消亡和新主题的诞生。在这两种理想情况之间，我们还可以画一个连续统，在这个连续统中，我们可以观察主题的死亡和出生。最后，在一个最有趣的场景中，知识可能会进化，而不是观察稳定性或湍流，从而重新组合新旧主题中的现有主题。表1总结了五种典型的知识演化模式及其在主题建模框架内的解释。表1：主题建模和知识演化的典型模式稳定性主题a在时间t和t+1存在。主题a在时间t+1没有先例。主题a在时间t+1消失。在时间t+1合并多个主题，在时间t+1合并成一个新主题。在时间t+1拆分多个主题，在时间t+1共享先例。图1给出了五种理想的知识进化是一个主题的邻近网络，我们将其数学形式化如下。让我们考虑一下，在时间t的一组文章中，M个主题是作为特应性建模练习的结果出现的，而在时间t+1时，N个主题是作为特应性建模练习的结果出现的。我们解决了跟踪t+1时主题集M=（1，…，A，…，M）att到主题集N=（1，…，A，…，N）的转换的关键问题。具体而言，我们感兴趣的是测量各种现象的大小，如出生、死亡、合并和分裂。考虑基于单词共现的相似性指数simil，在每个主题（A，A）和∈ M和a∈ N并考虑相似矩阵S（M×N）S=一NA simil1,1。相似1，N。。。。。。M similM，1。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:45

西米尔，N为了清楚起见，参考图1，让我们考虑一个最小的例子，其中M=（A，B）和N=（A，B）通常，该指数是余弦相似性指数，因为它在论文的实证部分中使用。图1：理想类型的话题演变A B（A）稳定性ACB（B）Merging B（c）出生A bc（d）分裂A（e）死亡=a bAαβBγδ网络表示允许可视化五种理想类型的知识演化：表2总结了它们以及观察此类情况的相似性指数值的必要和有效条件。然而，随着主题数量的增加，推导相似性指数值的条件将变得很麻烦。此外，表2仅描述了理想情况，而观察到的现实通常涉及上述范例案例的连续混合。例如，在图2所示的M=4和N=3的情况下，分析变得非常困难。考虑到这一目的，我们将相似矩阵S视为Mover N的关联矩阵。因此，我们可以使用S创建双邻接矩阵D，并将图2视为生成的二部网络，其中M和N是节点集，而矩阵的元素是边的权重。表2：双峰网络和经验指数网络矩阵参数。案例SABABα，δ6=0γ，β=0稳定性：无出生，无死亡SABABα，δ，γ，β=0不稳定性：出生和死亡SABABα，γ6=0δ，β=0合并：无死亡，但出生SABABα，β6=0δ，γ=0分裂：无出生，但死亡图2：两次窗口A B C DabcD主题的二分网络=0不锈钢==A.M a b。。。NA 0 0 0 B 0 0 0 S。。。0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 0 0 0 0 0 0 0 0。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:48

ST0 0 0 0N 0 0 0 0 0 0现在，我们将展示这种表述如何帮助衡量出生、死亡、死亡和分裂的程度。出生和死亡可以通过矩阵S轻松计算。行和等于零表示死亡，列和等于零表示出生。死亡意味着语义完全消失，而出生意味着一个主题与过去的其他主题没有语义相似性。再次重要的是要注意到，这些病例是极端情况，而在现实中，我们观察到出生和死亡之间的连续性。因此，我们可以在时间t+1为每个主题i计算一个索引新奇度i（NI），其中对于N i\\u i=M AX，我们有一个出生，这是一个与之前任何其他主题都不相似的主题。对于更高的价值，我们有更高的主题新颖性。我们还可以通过观察这些指数在主题上的分布，来衡量一个科学领域整体结构中NI的平均变化。例如，让我们考虑一下新指数和平均值，定义：NIj=1-PMiSi，jM（3），其中j是矩阵S中第j列的索引，且ni=1-PMiPNjSi，jM* N（4）我们取矩阵S中所有单元值的平均值。如果相似性指数在0和1之间有界，这是余弦相似性指数的常见情况，因此N I的范围为0到1。由于新颖性的价值很小，新主题显示出与旧主题不同的单词分布。如上所述，主题的转换可以采取合并和拆分的形式。我们说，如果t+1时的一个主题与t时的两个主题表现出高度的相似性，就会发生合并，这意味着t时的a和B的语义宇宙（如图2所示）被合并到主题a中。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 10:33:51

类似地，我们可以说，如果在t+1的多个主题中发现t+1的一个主题的语义遗产，就会发生分裂，就像在主题C中一样。为了分析合并的强度，我们可以将图2的两部分网络投影到图3的两个1模式网络中。这是通过矩阵乘法S×ST用于merging和ST×S用于分裂来实现的，这导致两个矩阵分别为M×M和N×N。请注意，对于矩阵乘法的性质，图3:1模式网络，图2ABCDabcMerging splittingpmerging和pspllittinga的投影始终是平方矩阵，即使两个时段的主题数量有所减少。网络由矩阵PPmerging表示=A B。。。MAB S×ST。。。MPsplitting公司=a b。。。Nab ST×S。。。N矩阵变换允许我们绘制图3所示的1模式网络，它表示两个时间窗口之间的合并和拆分。网络的矩阵公式也有助于根据两个相对矩阵P计算合并和分裂的强度。让我们将矩阵Pmergingin作为表2Pmerging=S×ST的一个最小示例=α βγ δ×α γβ δ=α · α + β · β α · γ + β · γα · γ + β · δ γ · γ + δ · δ（5）矩阵P总是对称的，为了我们的目的，我们将重点放在低三角形上。通过对角线外的数字（α·γ+β·δ）捕捉融合，其中（α·γ）是A中A和B的融合强度，而（β·δ）是B中A和B的融合强度。在表1所示的示例性情况下，β和δ等于零，而α和γ不同于零：因此，我们有图3所示的A和B之间的融合。经过必要的修改，我们可以考虑分裂的情况。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 10:33:54

再次，对角线的低三角形突出了分裂的强度，其中（α·β）A在A和b中分裂，而（γ·δ）b的分裂。Psplit=ST×S=α γβ δ×α βγ δ=α · α + γ · γ α · β + δ · γα · β + γ · δ β · β + δ · δ（6）当我们在两个时间窗口中都有大量主题时，我们可以使用此公式创建衡量合并和拆分强度或其他过渡属性的索引。具体而言，我们旨在比较对角线下方的值与对角线上的值。WeFigure 4:Tabcd中主题之间的相似性网络因此创建一个规范化矩阵，其中对角线和对角线以下的所有元素相加为一个。Pmergingnormalized=Pmerging·Pi≤jP（i，j）（7）通过这种方式，我们可以计算一个merginginindex（M i），当没有合并发生时，它的值为0，并且它的范围达到一个上限，该上限不能超过1。MI=1- trace（Pmergingnormal-ized）（8）对称地，我们计算了拆分指数（SI）2.1条件依赖。最后一个需要解决的重要问题是时间t时主题的条件依赖性的影响及其与单模网络投影的关系。t处的两个主题可能会在t+1处合并为一个主题，因为它们在t时已经彼此相似。在这种情况下，我们可能会发现一个虚假的合并过程。然而，可以解释这种动态条件依赖。我们可以计算时间t时主题之间的相似性指数simT，它也可以用网络表示。Q=simT1,1。simT1，M。。。simTM，1。simTM，M请注意，Q是一个对称矩阵，其维数（M×M）与Pmerging相同。同样的程序也适用于t+1的主题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:33:57

在这种情况下，我们得到了一个与Psplit维数相同的矩阵（N×N）。为了考虑条件依赖，我们可以考虑Rmerging，spliting=（Pmerging，spliting | Qmerging，spliting）并重新计算索引，用P替换R。存在不同的方法来操作依赖性。可能最复杂的方法是在图形网络中对整体条件依赖结构进行编码【Jordan，1998，Lauritzen，1996】。然而，我们也可以认为相似性度量具有尺度意义，它超越了简单的概率关系。因此，我们推测，条件依赖性最多可以通过将元素除以或减去两个矩阵来考虑：在开发的算法中（见下一段），我们除以。表3总结了我们使用的索引及其范围。表3：测量主题建模中的变化类型变化指数Min max引入新的语义区域或过去遗留的NI 0 1整合主题的语义内容MI 0 1拆分主题的语义内容SI 0 12。建议的算法本段描述了我们开发的算法，用于操作前一理论方法。我们的例子依赖于潜在Dirichlet分配（LDA）[Blei等人，2003年]，尽管该方法不涉及主题创建方式的任何假设。LDA是一个generativemodel，通过混合主题对文档进行总结，其中每个主题都是字典中的概率分布。该算法首先生成一个数据库，允许在每个时间段查询文档。此后，它将数据集划分为Unigram，其中根据NLTK列表（www.NLTK.org）消除了StopWords。最后，我们将PorterStemmer[Porter，1980]应用于单个单词。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:00

该算法以词根形式变换（或截断）每个单词。我们为每个T时间窗口创建一个子集，并使用标准LDA计算NTTopics。根据生成的输出，我们可以计算出三个指数。对于相似度计算，我们使用前100个主题单词的概率来生成向量权重。算法1显示了计算从t到t+1的时间窗口的伪代码。它只需在t和t+1时输入所选窗口的已清理文档和主题数，然后返回合并、拆分和值索引。具体而言，该算法为每个时间窗口t和t+1生成aLDA模型，并计算时间和t+1时主题之间的相似度（以及主题本身）。然后，使用相似矩阵S和矩阵Q计算矩阵Pmerging和psplitting。两个P矩阵用于计算MI和SI，而矩阵xq用于计算NI。3评估为了评估这种方法，我们不能用DTM等其他动态方法对其进行基准测试，因为我们不会随着时间的推移跟踪单个主题，但我们会比较相邻的时间窗口来衡量主题重组的程度。因此，我们通过在具有受控特征的人工生成数据集上应用该算法来测试该方法。3.1艺术数据创建为了生成实验数据集，我们创建了反映自然和现实文本内容的艺术主题。不是直接将主题生成为一组艺术构建的单词集，而是从概念种子开始，用作真实文本数据的查询。概念种子是表示基于文本的资源中的概念的词（或复合词）。例如，Wikipedia资源中的概念seedphysics是关于物理的Wikipedia页面。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:03

从一组concepthttps://radimrehurek.com/gensim/Algorithm1 computeSingleWindow（文档集，numT opict，numT opict+1）1：topict← LDA（文档集，numT opict）2：St← computeTopicSimilarity（topict，topict）3：topict+1← LDA（文档集，numT opict+1）4：St+1← 计算观点相似性（topict+1，topict+1）5:Q← computeTopicSimilarity（topict，topict+1）6:r更大← St公司* STt7：Rsplit← St+1* STt+18：Q麦哲← Q* QT9：Qsplit← QT* 问题10：Pmerger← 零（Rmerger.numRow（），Rmerger。numCol（））11：Psplit← 零（Psplit.numRow（），Psplit。numCol（））12：对于i← 1.Rmerger公司。numRow（）do13：用于j← 1.Rmerger公司。numCol（）do14:Pmerger[i，j]←Rmerger[i，j]Qmerger[i，j]15：结束16：结束17：结束i← 1.R分裂。numRow（）do18：用于j← 1.R分裂。numCol（）do19:Psplit[i，j]←Rsplit[i，j]Qsplit[i，j]20：结束于21：结束于22：合并← 合并（正常化（Pmerger））23：拆分← 拆分（规格化（Psplit））24：新颖性← 新颖性（Q）25:26：返回合并、拆分、Noveltyseds及其关联的维基百科页面，可以提取整个文本内容并为所选概念构建艺术文档。在下面的练习中，我们选择了8个概念种子，都与经济学领域相关，以了解我们的方法在反映内容的玩具模型上的效果如何，这些内容与我们在第4节中使用的真实数据一致）。与大多数自然语言处理系统一样，我们应用了一些预处理阶段，包括删除停止词以及功能性语言项，如限定词、标点符号等。一旦建立了词集，我们就通过随机选择概率一致的词，为每个种子概念生成一个文档。我们保持单词重复，以允许我们按照单词的实际频率对单词进行采样，并生成接近真实案例的文档。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:07

我们使用了图书馆维基百科，网址为https://github.com/goldsmith/Wikipedia，它充当MediaWiki API的rapper(https://www.mediawiki.org/wiki/)我们使用了图书馆空间(https://spacy.io/)，筛选出具有以下Speechtags部分的单词：DET（文章）、NUM（数字）和PUNCT（标点符号）。每个文档的字数是随机选择的。生成的用于训练具有不同种子概念的不同LDA模型。最后，我们通过所提出的措施比较了不同LDA模型的主题，以观察它们是否捕捉到主题变化的动态。有关算法的详细信息，请参阅附录A。3.2对照实验为了评估算法，我们创建了8个不同的对照实验，旨在捕获知识进化的4个理想案例。具体而言，我们进行了两次4个实验，通过改变（或不改变）主题数量和替换（或不替换）概念种子，测试该方法在4种不同情况下的功能。在前4轮中，我们尽可能地简化了场景，并在后4轮中略微增加了练习的复杂性。在前一个实验中，第一个实验在t时的主题数固定为2个，第二个实验为4个；t+1时的主题数量由实验确定（详情见表4）。具体来说，我们将每个实验设置如下：稳定性主题数量和种子概念保持不变。这种变化只是随机的。出生/死亡主题的数量没有改变，但我们替换了概念种子，以强制之前主题的死亡和新主题的诞生。合并种子概念不会改变，但我们会减少主题的数量，以迫使出现合并的情况。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:10

例如，如果我们在2个主题和1个主题中聚集相同的概念种子，我们需要只观察合并而不观察拆分。分割种子概念不会改变，但我们会增加主题的数量，以迫使出现分割的情况。表4总结了实验设计，并描述了算法2 100次运行的平均值。关于前4个简单的设计，我们设想通过实验来实现结果，并只创建拆分和合并。对于拆分，主题的数量从一个增加到两个，我们不应该看到合并，因为在t- 1还有一个主题。类似地，在合并的情况下，主题的数量在t+1中缩小为1。剩下的两个实验将稳定性与出生和死亡进行比较，这导致了更高程度的新颖性。Ourindex按预期变化：在拆分和合并时，MI和SI分别为零。如果我们将稳定性与出生和死亡进行比较，前者的NI要高得多。表4显示了针对更多主题的不同实验。值得注意的是，即使有一些主题，也不可能得到明确的结果，因为知识的重组可能是意外的，通常会同时复制一些主题的合并、分裂、稳定性，以及其他主题的生与死。然而，这些基线示例清楚地指出了一个学科中主题的聚合行为。4经济学知识的演变数据集是JSTOR数据库（www.JSTOR.org）中出现的文件集合，1845年至2013年间，在190多家与经济科学相关的期刊上发表（也称为经济学）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:12

这些文件超过460000份，分为研究文章（约250000篇）、书评（135000篇）、杂项（73000篇）、新闻（4000篇）和社论（500篇）。对于每个文档，除了书目信息（标题、出版日期、作者、日志等），数据集还以一袋单词的形式提供完整内容，即文档中使用的与其频率相关的单词集。以下分析仅考虑研究文章，以消除使用不同类型文档可能产生的噪音，这些文档可以用不同的语言编写。在所考虑的时间内，研究文章的分布非常不均匀（见图5）。尽管最早的文献可追溯到1845年，但直到十九世纪末，文章语料库仅统计2930项。直到20世纪60年代初，这种增长几乎是线性的，当时的文件数量在几年内翻了一番多，在20世纪90年代和2000年代期间，每年都增加到5000多个项目。从2011年到2013年，我们统计了8220个已发布项目。LDA已应用于1890年至2013年之间发表的研究论文：1890年之前的几十年由于文件数量极低而被取消。因此，文章的结果数据集由755838336个单词和3169515个独特单词组成。我们实验了改变方法的超参数，即主题数量和时间窗口维度，以评估我们的方法在123年的研究中的稳健性和敏感性。我们选择了25个、50个和100个主题以及5年、10年和20年的时间窗口，固定一个参数，改变另一个参数。具体而言，我们首先展示了SI的值，并将窗口维度缩小到10年，并改变主题的数量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:15

例如，在以下图表中，1900-1920表示1900至1910年间的指数值，而1910至1920年间的相应值。图6、7和8显示了10年内25、50和100个主题的索引。然后，我们将主题数量固定为25个，并改变时间窗口的大小。图9和图10显示了5年和20年25个主题和窗口的索引。这些简单的测试表明，通过改变超参数，指数的主要趋势不会发生实质性变化，这意味着我们的方法对主题的数量和时间窗口的大小具有鲁棒性。为了进一步证明主题数量和窗口大小的不变性，我们将Greene metricGreene et al.（2014）应用于时间窗口为10年的研究文章子集，以捕捉经济知识的所有可能变化。度量值显示topicsgenerated捕获数据集中显示的信息的程度。Greene度量需要输入范围（由最小和最大主题数组成）和步骤参数（该度量用于从最小主题数开始移动当前步骤中考虑的主题数）。例如，如果最小主题数为10，最大主题数为50，步骤数为20，则Greene指标将计算10、30和50个主题的分数。图11和图12中的量度图涉及两个窗口，表明增加主题的数量也可以增加稳定性，但当然，要解释每个主题的含义变得非常困难。正如Mimno和Blei[2011]所建议的，当主题建模被用于探索数据集的内容时（如本文所述），而不是预测，没有定义测试来支持最佳主题数量的选择。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:19

我们通过图5解决了稳定性和意义之间的权衡：每年出版的语料库中文档的分布手动控制模型生成的主题，在10年的时间窗口内有25个主题。当我们发现一些主题由于过于笼统而可以再次拆分时，我们将最佳且分析有用的主题数设置为27。因此，以下分析基于10年时间窗内的27个主题，这些主题的指数在不同主题数量的情况下表现出最大的稳定性。图13显示了第2.2节中定义的每个时间窗口的MI和SI值。在我们分析的语料库中，这两个指数都显示出随着时间的推移而下降的总体趋势，从20世纪60年代开始变得尤为严重。合并和拆分仅在20世纪40年代和50年代之间增加，而在20世纪下半叶急剧下降。只有在本世纪末左右，当默金不断增加，分裂趋于稳定时，话题的转变似乎才找到新的动力。至于NI，我们提到，当新主题出现时，指数往往会变为1，而与t的主题不匹配- 在考虑的123年中，平均值大于0.9，因此我们跟踪了微观变化和一般趋势。在图14中，NI直到20世纪90年代才显示出相关变化，一些局部最大值出现在上个世纪的第一个十年，而局部最小值大约在其一半左右。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:22

在过去十年中，图6:M I和SI-25主题的10年窗口大小图7:M I和SI-50主题和本世纪的10年窗口大小急剧增长，表明全新主题或至少由新词定义的主题的比率较高。图8:M I和SI-100主题和10年窗口大小图9:M I和SI-25主题和5年窗口大小这种方法的优点是，通过同时查看所有其他理论，跟踪每个单一经济理论流的演变。总的来说，对如此庞大的文献语料库的分析表明，合并和拆分不能被视为对立现象，而是主题重组的补充措施。特别是，经济领域的趋势表明，分裂和合并的数量稳步减少，只是在二战前后增长乏力的情况下暂时平衡。从历史的角度来看，这完全符合大萧条后经济学理论阐述的需要，如图10：M I和SI-25主题和20年窗口大小图11：Greene等人的时间窗口1910-1920.1929的稳定值以及战后重建带来的巨大经济变化。在20世纪60年代，加上学术出版物的繁荣，许多话题都围绕着图12展开：Greene等人的时间窗1940-1950年的稳定性值。相关数量的文件和期刊，尽管它们似乎详细阐述了自主主题的相对稳定性。直到本世纪末，我们才见证了新品牌主题的发展。新主题的诞生强化了由自己的专业语言和较少的跨经济学学科知识交流形成的自立主题的假设。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:25

换言之，学术成果的地域扩张似乎伴随着塞德里尼和丰塔纳（2017）在多个知识领域的分裂和分散，他们致力于一种新的语言，但不一定产生新的范式。5结论在这篇论文中，我们提出了一种方法来衡量科学领域中知识的演变，从文献语料库中抽取主题。主题建模技术在处理大型复杂文档库方面越来越成熟，但它们可能缺乏对潜在经验现象的理论反映。从动态的角度来看，我们认识到五个知识进化的范例。然后，我们推测，将不同时间窗口的照片之间的接近度建模为接近网络可能是测量其认知动态的有用工具。事实上，这种网络方法允许我们开发3个指数，即：衡量死亡和出生率的主题随时间变化的稳定性（新颖性指数-N I），以及主题重组的程度（合并指数-MI和拆分指数-SI）。对于非常简单的情况，我们也能够通过分析推导出这些条件，这些条件将proximitynetwork与每个索引的值联系起来。在一组模拟文档上测试该算法，我们展示了它对所开发的每个索引的鲁棒性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 10:34:28

最后，我们将我们的方法应用于一个真实的、大量的经济学学术出版物，以说明综合使用M I、图13：M I和SI-27主题10年图14：N I-27主题10年SSI和NI如何有效地理解经济知识和思想的动态和趋势。我们认为，这是在算法图15：SI和N的组合图图图16：动态主题建模的M I和NIF的组合图以及它们应该描述的经验现象之间建立更紧密联系的第一步。人工数据创建：算法在算法2中，函数getNum（minNum，maxNum）返回一个在minNum和maxNum之间随机选择的数字；函数的作用是：返回一个在selectedset上随机选择的单词；函数computeTopicSimilarity（）计算输入主题之间的余弦相似度；函数zeros（）返回一个包含所有零的数组。最后，函数getWordList（concept）生成一组单词。这些文字摘自维基百科页面，指向chosenconcept。在第[1-6]行中，函数getWordList为每个概念种子收集一组单词。具体来说，getWordList（如算法3所示）提取Wikipedia页面中包含的与python库Wikipedia输入的概念相关的所有单词。使用Spacyand库提取单词并存储在单词列表中。然后，将每个概念种子的单词列表插入到wordConceptList中。在第[7-16]行中，算法2为每个概念生成一个文档，从与概念种子相关的单词列表中抽取单词（以统一的概率）。样本字数由numWords指定，范围从1000到10000。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:31

接下来，在Rows【18-20】中，该算法将文档分为两组，一组包含第一个numDocumentdocuments，另一组包含剩余文档，并应用LDA。LDA可以应用于两个文档集，也可以根据replaceDoc格式仅应用于单个文档集。如果replaceDoc设置为True，则第一个文档集将替换为第二个文档集（默认设置为false）。算法4显示了单词的处理方式。我们过滤了停止词和部分语音标记Det（限定词）、X（外来词）、NUM（数字）、Punct（标点）、SPACE和EOL（行尾符号）的词。我们还过滤了与python正则表达式\\w+不匹配的单词。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 10:34:34

此外，所有未过滤的单词都会回到其词根。https://github.com/goldsmith/Wikipediahttps://spacy.io/There为输入中的每个conceptSeed存在一个单词列表。算法2 ToyEvaluation（seedConcepts，numDocument，numT opict，numT opict+1，replaceDoc）1:wordsConceptList={}2://为每个概念创建单词列表seed3:for seedConcepts中的概念do4:wordsList← getWordList（概念）5:wordsConceptList。append（wordsList）6:end for 7:documents={}8:for i← 1.len（种子概念）do9：numWords← getNum（100010000）10：文档={}11：对于j← 1.numWords do12：word← 词语概念列表[一]。getWord（）13：文档。附加（word）14：结束15：文档。附加（文档）16:end for17://get topic18:documentSet← 文件【1：numDocument】19：topict← LDA（文档集，numT opict）20:Mt← computeTopicSimilarity（topict，topict）21：如果replaceDoc 6=False，则22：文档集← 文档[数字文档：len（seedConcepts）]23：结束if24：主题+1← LDA（文档集，numT opict+1）25：Mt+1← computeTopicSimilarity（topict+1，topict+1）26:27：/*然后继续作为computeSingleWindow算法*/算法3 getWordList（concept）1：posTags← {X，NUM，DET，PUNCT}2：解析器← 语法分析器（lan=eng）3：单词列表← {}4：单词列表← getWordList（content，posTags）5：返回WordList算法4 getWords（content，posTags）1：单词← {}2：wikiPage← 维基百科。getPage（concept）3：用于解析器中的句子（wikiPage.content）。句子do4：用于句子中的单词。单词do5：if&（stopwords中的单词）∧ （邮资中的word.pos）∧ 匹配（单词），然后匹配6：单词。附加（word.lemma）7:end-if8:end-for9:end-for10:return-wordsReferencesR。Alghamdi和K.Alfalqi。文本挖掘中的主题建模综述。《国际先进计算机科学和应用杂志》，6（1）：147–1532015。D、 M.Blei和J.D.La Offerty。动态主题模型。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝