基于社会标注的资源自动发现

nandehutu2022

754

收藏 2022-04-14

摘要翻译：
需要访问信息资源的信息集成应用程序，如中介或混搭，目前依赖于用户手动发现并在应用程序中集成它们。手工资源发现是一个缓慢的过程，需要用户筛选通过基于关键字的搜索获得的结果。虽然搜索方法已经发展到包括来自文件内容、其元数据以及参考页的内容和链接结构的证据，但它们仍然没有充分涵盖为响应查询而动态生成文件的信息源----通常称为“隐藏网络”。最近流行的社交书签网站允许用户注释和共享关于各种信息源的元数据，为资源发现提供了丰富的证据。本文描述了一个社会化书签系统del.icio.us中用户注释过程的概率模型。然后，我们使用该模型自动查找与特定信息域相关的资源。我们对从\\emph{del.icio.us}获得的数据的实验结果表明，该方法是一种帮助自动化资源发现任务的有希望的方法。
---
英文标题：
《Exploiting Social Annotation for Automatic Resource Discovery》
---
作者：
Anon Plangprasopchok and Kristina Lerman
---
最新提交年份：
2007
---
分类信息：

一级分类：Computer Science 计算机科学
二级分类：Artificial Intelligence 人工智能
分类描述：Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域，除了视觉、机器人、机器学习、多智能体系统以及计算和语言（自然语言处理），这些领域有独立的学科领域。特别地，包括专家系统，定理证明（尽管这可能与计算机科学中的逻辑重叠），知识表示，规划，和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类：Computer Science 计算机科学
二级分类：Computers and Society 计算机与社会
分类描述：Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类：Computer Science 计算机科学
二级分类：Digital Libraries 数字图书馆
分类描述：Covers all aspects of the digital library design and document and text creation. Note that there will be some overlap with Information Retrieval (which is a separate subject area). Roughly includes material in ACM Subject Classes H.3.5, H.3.6, H.3.7, I.7.
涵盖了数字图书馆设计和文献及文本创作的各个方面。注意，与信息检索（这是一个单独的主题领域）会有一些重叠。大致包括ACM课程H.3.5、H.3.6、H.3.7、I.7中的材料。
--

---
英文摘要：
Information integration applications, such as mediators or mashups, that require access to information resources currently rely on users manually discovering and integrating them in the application. Manual resource discovery is a slow process, requiring the user to sift through results obtained via keyword-based search. Although search methods have advanced to include evidence from document contents, its metadata and the contents and link structure of the referring pages, they still do not adequately cover information sources -- often called ``the hidden Web\'\'-- that dynamically generate documents in response to a query. The recently popular social bookmarking sites, which allow users to annotate and share metadata about various information sources, provide rich evidence for resource discovery. In this paper, we describe a probabilistic model of the user annotation process in a social bookmarking system del.icio.us. We then use the model to automatically find resources relevant to a particular information domain. Our experimental results on data obtained from \\emph{del.icio.us} show this approach as a promising method for helping automate the resource discovery task.
---
PDF下载：
-->

English_Paper.pdf
大小:(105.48 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

大多数88

2022-4-14 16:04:09

为自动资源发现开发社会注释Yanon Plangprasopchok和Kristina Lermustc Information Sciences Institute 4676 Maritality WayMarina del Rey,CA 90292,USA{plangpra,lerman}@isi.eduAbstractInformation integration应用程序，如mediators或Mashups，需要访问信息资源，目前依赖于用户手动在应用程序中发现和集成它们。手工资源发现是一个缓慢的过程，需要用户筛选通过基于关键字的搜索获得的结果。尽管搜索方法已经发展到包括来自文档内容、itsmetadata以及referringpages的内容和链接结构的证据，但它们仍然没有充分涵盖信息源--通常被称为“隐藏的Web”--这些信息源根据查询动态生成文档。最近流行的社交书签网站允许用户注释和共享关于各种信息源的元数据，为资源发现提供了丰富的证据。本文描述了一个社会化书签系统del.icio.us中用户注释过程的概率模型。然后，我们使用themodel自动收集与特定信息域相关的资源。我们在从del.icio.us获得的数据上的实验结果表明，该方法是一种帮助自动化资源发现任务的理想方法。引言随着Web的成熟，越来越多的动态信息源和服务上线。与Web页面不同，这些资源根据查询动态生成内容。它们可以是基于HTML，通过HTML表单搜索站点，也可以是WebService。这些资源的激增导致了大量新的应用程序，包括基于Web的mashups，如Google maps和Yahoo pipes，信息集成应用程序（Thakkar,Ambite,&Knoblock2005)和intelligent of Figurence assistants（Lerman,Plangprasopchok,&Knoblock2007)。然而，在所有这些应用程序中，用户必须发现相关资源并对其建模。人工资源发现是一个非常费时费力的过程。用户通常使用适当的关键字和额外的参数（例如，要求.kml或.wsdl firegles）查询Web搜索引擎，然后必须检查搜索引擎返回的每一个资源，以评估其是否具有美国艺术情报协会2018（www.aaai.org）的DesiredCopyrightc。保留所有权利。功能。通常，在面临资源故障时，希望不是一个而是几个资源具有与信息集成应用程序的公度性相当的功能。识别几个等价资源使得手工资源发现变得更加耗时。信息集成领域的大多数研究都集中在自动建模资源上--即理解它们使用的数据的语义(Heá&Kushmerick2003；Lerman，Plangprasopchok，&Knoblock2006)和它们提供的功能(Carman&Knoblock2007)。相比之下，资源发现问题受到的关注要少得多。请注意，传统的搜索引擎根据资源的内容--它们所包含的单词或术语--对资源进行索引，在这个领域中不太可能有用，因为内容是动态生成的。最好的情况是，它们依赖于resourceauthors提供的元数据或链接到该资源的页面中的锚文本。Woogle（Dong et al.2004)是基于WSDL中提供的语法元数据索引Web服务的数量最多的搜索引擎之一。它允许用户搜索具有类似功能或接受与其他服务相同输入的服务。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-4-14 16:04:15

这些被称为“社交媒体”的网站允许用户共享文档，包括书签、照片或视频，并用自由格式的关键字标记内容。虽然标记的最初目的是帮助用户组织和管理他们自己的文档，但后来提出，可以通过一个被称为“大众分类法”的非正式分类系统来组织公共文档的集体标记(Mathes2004)。例如，请考虑http://geocoder.us，这是一个地理编码服务，它将输入作为地址并返回其纬度和经度。在社交书签网站del.icio.us上，这个资源已经被1000多人标记了。用户与此资源相关联的常见标记有“地图”、“地理编码”、“GPS\"、”地址“、”纬度“和”经度“。这个示例表明，尽管在社会注释系统中通常没有受控词汇表，但标记可以用于根据其功能对资源进行分类（http://del.icio.usity）。我们声称社会标记可以用于信息资源发现。我们探索了三个概率生成模型，它们可以用来描述del.icio.us上的标记过程。模型是概率语义模型(Hofmann，1999)，它通过集成购物中心用户的书签行为来忽略单个用户。第二个模型，即三向方面模型（Wu,Zhang,&Yu 2006）被提出来对del.icio.usUsers的注释进行建模。该模型假设存在独立生成用户、资源和标记的观察值的aglobal概念空间。我们提出了另一种第三种模型，它是由作者-TopicModel（Rosen-Zvi et al.2004)提出的，它认为作者感兴趣的潜在主题生成文档中的单词。由于del.icio.us上的单个资源可以由不同的用户进行不同的标记，我们将“主题”（如作者-主题模型中所定义的）分为“（用户）兴趣”和“（资源）主题”。用户兴趣和资源主题一起为一个资源生成标记。为了描述资源发现的模型，我们用一个主题分布来描述每一个资源，然后将这个主题分布与所有其他资源的主题分布进行比较，以识别相关的资源。在下一节中，我们将描述如何在资源发现中使用标记数据，随后我们将介绍我们开发的用于资源发现任务的概率模型。本节还描述了两个早期相关的模型。然后，我们在从del.icio.us获得的数据集上比较了这三个模型的性能。我们回顾了以前的工作，并简要介绍了结论和未来的研究方向。问题了解假设用户需要了解提供某些功能的资源：例如，返回当前天气状况或给定地址的经纬度的服务。为了提高应用程序的健壮性和数据复盖率，我们通常需要多个具有必要功能的资源。在本文中，为了简单起见，我们确定用户提供了一个示例资源，我们称之为aseed，并希望用相同的功能收集更多的资源。所谓“same”是指一个资源，它将接受这些输入数据类型作为种子，并在对它们应用相同的操作后返回相同的数据类型作为种子。请注意，我们可能有一个更严格的要求，即资源返回与seed相同的数据，用于这些名称的输入，但我们不想排除可能具有不同覆盖范围的资源。我们声称，社会书签系统中的用户会根据他们的功能或主题（类别）来注释资源。虽然del.icio.us和similarsystems为用户提供了不同的文档注释方式，如注释和标记，但在本文中，我们只关注标记。因此，我们模型中的变量是资源R、用户U和标记T。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-14 16:04:21

用户u的resourcer的书签i可以形式化为元组hr,u,{t,t,...}ii，它可以进一步分解为资源、用户和标签的三重共生:hr,u,ti.rztntdzrutnb图1：概率潜在语义模型（左）和多向方面模型（右）的图形表示R、u、t和Z可重新表示变量“资源”、“用户”、“标签”和“主题”。ntrepress为一个特定的资源提供大量的标记；D表示资源的数目。同时，NBRE在social AnnotationSystem中呈现了许多资源-用户-标签的共存现象。请注意，所添加的圆圈表示观察到的变量。我们通过爬行del.icio.us来收集这些三元组。该系统提供三种类型的页面：标记页面--列出用特定关键字标记的allresources；一个userpage--列出所有已被bya特定用户作为书签的资源；和一个资源页面--列出用户与该资源关联的所有标签。del.icio.us还提供了一种在这些页面之间来回导航的方法，允许我们爬取站点。给定种子，我们得到del.icio.us显示的用户分配给它的最受欢迎的标记。接下来，我们收集使用这些标记注释的其他资源。对于其中的每一个，我们都收集theresource-user-tag三元组。我们使用这些数据来发现与种子功能相同的资源，如下文所述。方法我们使用概率模型来根据主题描述对收集的资源进行压缩描述。这种描述是不同主题可能如何描述特定资源的概率向量。随后，利用Jensen-Shannon散度计算资源之间的相似度(Lin，1991)。对于本节的其余部分，我们将描述概率模型。本文描述了现有的两种模型：概率潜在语义分析(pLSA)模型和三向面模型(MWA)。然后我们引入了一个新的模型，它明确地考虑了用户的兴趣和资源主题。我们比较了这些模型在三个del.icio.us数据集上的性能。概率潜在语义模型(pLSA)Hoffman(Hofmann，1999)提出了一个用于关联单词-文档共存的概率潜在语义模型。该模型假设一个特定的文档是由一组概念主题或主题Z组成的，文档中的词是由这些主题以一定的概率生成的。我们通过声明所有用户对特定资源的注释都有共识，从而使模型适应社会注释的上下文。与给定资源相关联的所有用户的所有书签被聚合到一个单一的语料库中。图1显示了该模型的图形表示。通过对所有用户的resourceuser-tag三元组hr、u、ti求和来计算特定资源-标记对的共现。联合分发资源和标记isp(r，（1）为了估计参数p（tz）,p（zr）,p（r）Wedefrine log Lavelihood L,它测量估计的参数如何与观察到的数据相匹配，其中n（r,t）是资源标签共现的数量。EM算法(Dempster,Laird,&Rubin 1977）被应用于估计那些使L.三向方面模型(MWA)最大化的参数。三向方面模型（或多向方面模型，MWA)最初被应用于文档推荐系统（Popescul等）。该模型考虑了用户兴趣（纯协作搜索）和文档内容（基于内容）。最近，将三向方面模型应用于社会标注数据，以证明社会标注系统中的涌现语义，并将这些语义用于信息检索（Wu,Zhang,&Yu 2006）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-4-14 16:04:28

在这个模型中，conceptualspace作为一个潜在变量Z被引入，它独立地为一个特定的三重hr、u、ti生成资源、用户和标记的出现（参见图1）。将资源、用户和标签的联合分布定义为:sp(r，u，t)=xzp(rz)p(uz)p(tz)p(z)(3)类似于pLSA,通过最大化对数似然目标函数来估计参数p(rz)，p(uz)，p(tz)，p(z)，L=pr,u,tn(r，u，t)log(p(r，u，t))。兴趣主题模型（interest-topic Model,ITM）是基于社会标注系统中用户具有广泛的兴趣这一观点而提出的。aparticular bookmark中的一组标签可以重新影响用户的兴趣和资源的主题。在三向方面模型中，使用asingle潜在变量来表示“兴趣”和“主题”可能不合适，因为这两个变量之间的混合可能会扭曲从资源上的视图分布计算出的初步相似度得分。IUTNTZRD图2：在拟议模型上的图形表示。r、U、T、I和Z分别表示变量“资源”、“用户”、“标签”、“兴趣”和“主题”。ntrepress为一个书签（由一个特定用户到一个特定资源）提供标记出现的数目；D表示社交标注系统中的许多书签，我们提出将潜在变量显式地分为两个：一个表示用户兴趣，一个表示用户兴趣；根据proposedmodel,资源-用户-标签共现的过程可以描述为一个随机过程:o用户u将一个资源r感兴趣，并愿意将其作为书签o用户u有自己感兴趣的资源I；然后根据用户的兴趣和资源的主题选择Tag t。该过程以图2的形式描述。根据上述过程，将资源、用户和Tag的联合概率写成asP(r，u，t)=xi,zp(ti，z)p(iu)p(zr)p(u)p(r)(4)以对数似然L作为估计所有参数的目标函数。请注意，p(u)和p(r)可以直接从观测数据中得到--估计包括三个参数p(ti，z)、p(iu)和p(zr)。L=xr,u,tn(r,u,t)log(p(r,u,t))(5)EM算法估计这些参数。在期待步骤中，在给定所有观测值的情况下，计算了隐变量i和Z的联合概率asp（i,祖，r,t)=P(ti,p（iu）p（zr）Pi,zp（ti,随后，z)p(iu)p(zr)(6)，每个参数用p（i,祖，r,我们刚刚从E stepp(ti，z)=pr,un（r,u，t)p(i,zu,r,t)Pr,u，tn(r,u,t)p(i,zu,r,t)(7)p(iu)=Pr,tn(r,u,t)Pzp(i,zu,r,t)n(u)(8)p(zr)=Pu,tn(r,u,t)n(r)(9)算法在E步和M步之间迭代，直到所有参数值收敛。一旦所有模型学习完毕，我们使用资源p（zr）主题的分布，使用Jensen-Shannon发散计算资源和种子之间的相似性。我们收集了经验验证来评估我们的方法三种种子资源的数据：CreyteCommgeocoderand Wnydron。fiegrst资源允许用户跟踪给定的航班和航班号或起飞和到达机场的航班；第二资源返回给定地址的坐标；第三个资源提供特定地点的天气信息（由邮政编码、城市和州或机场提供）。我们的目标是收集其他资源，提供灾害性跟踪、地理编码和天气信息。我们的方法isto crawl del.icio.us收集可能与种子相关的资源；应用概率模型对资源的主题分布进行预测；然后根据其主题分布与种子的stopic分布的相似性对所有收集到的资源进行排序。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-4-14 16:04:34

抓取策略如下：对于每个种子，检索用户应用于该资源的20个最流行的标签o对于每个标签，检索已经用该标签注释的其他资源o对于每个资源，收集为其创建的所有书签（即资源-用户-标签三元组）我们编写了特殊用途的Web页面刮板来从del.icio.us中提取这些信息。原则上，我们可以通过收集标记和检索更多已经用这些标记标记的资源来继续扩大资源的集合，但实际上，即使在我们做了少量遍历后，我们也为WundergroundSeed获得了1000多万个三元组。我们在2006年5月获得了seed CremyteComm和Geocoder的数据集，并在2007年1月获得了seed Wdernborder的数据集。我们通过省略低（少于10个）和高（超过10000个）频率标签以及与这些标签相关的所有三元组来减少数据集。经过这种减少，我们只剩下(a)2,284,308个三元组和3,562个唯一资源；14,297个唯一标签；34,594个CremyteComm种子的唯一用户；(b)3,775,832个三胞胎，5,572个独特资源；16,887个唯一标记和46,764个http://www.comiytecomm.com/cgi-bin/track braight/http://geocoder.ushttp://www.wunderground.com/unique用户；(c)6,327,211个三胞胎，拥有7,176个独特资源；为Wdernbord种子提供了77,056个唯一标签和45,852个唯一用户。接下来，我们根据数据对所有三个模型进行了训练:pLSA、MWA和ITM。然后利用学习到的主题分布计算每个数据集中的资源与种子的相似度，并根据相似度对资源进行排序。我们根据以下条件手动检查模型产生的前100个资源来评估每个模型的性能:osame:如果该资源提供的输入表单采用与seed相同类型的数据并返回相同类型的输出数据，则该资源具有相同的功能：例如，retrightTracker采用一个Juight number并返回Juight Statusolink-to:该资源包含一个链接，该链接指向一个以thesame功能为种子的页面（请参见上面的条件）。虽然现在的评估是手动执行的，但我们计划在未来通过使用表单的元数据来预测输入的语义类型(Heá&Kushmerick2003)，自动地查询源，从中提取数据，并使用(Gazen&Minton2005；Lerman，Plangprasopchok，&Knoblock2006)中描述的工具对其进行分类，从而自动化这一过程。我们将能够通过比较资源的输入和输出数据与种子的输入和输出数据来验证资源是否具有类似于种子的功能(Carman&Knoblock，2007)。请注意，由于自动查询和数据提取过程中的每一步都有一些失败的可能性，我们将需要识别比所需更多的相关资源，以确保我们能够自动验证其中的一些资源。图3显示了三个数据集中40或100个主题（和兴趣）的不同ModelStrath的性能。foungugure显示了前100名中具有与所定义的相同功能或包含指向具有相同功能的资源的链接的资源的数量。兴趣主题模型的表现略好于pLSA，而ITM和pLSA都明显优于MWA模型。将潜变量Z的维数从40增加到100通常会改善结果，尽管有时只是轻微的改善。谷歌的“相似页面”功能分别为三个种子cremyteComm、geocoder、wdernorder返回了28、29和15个资源，其中5、6和13个与种子具有相同的功能，3、0、0个链接到具有相同功能的资源。相比之下，ITM模型返回的相关结果是原来的三倍。表1提供了不同资源发现方法性能的另一个视图。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

能者818

2022-4-14 16:04:39

它显示了在十个具有正确功能的资源被发现之前，有多少theMethod的预测必须被检查。由于ITM模型将相关资源排名最高，因此需要检查和验证的网站较少（手动或自动）；因此，ITM是最有用的模型。ITM性能略优于pLSA的一个可能原因可能是因为在我们收集的数据集中，flytecommpLSA(40)pLSA(100)MWA(40)ITM(40)ITM(100)ITM(100)link-tosamegeocoderpLSA(40)pLSA(100)MWA(40)ITM(40)ITM(100)wundergroundpLSA(40)pLSA(100)MWA(40)ITM(40)ITM(100)ITM(100)图3：不同模型在三个数据集中的性能。每个模型用40或100个主题进行训练。对于ITM，我们在所有不同的数据集中收集到20个兴趣。条形图显示了返回的前100个byeach模型中具有与seed相同功能或包含与seed相同功能的资源链接的资源的数量。这些资源是从一个seed开始的，然后是相关的标记链接；因此，我们没有获得任何使用与seed不同的标记进行注释的资源，即使它们是由为seed添加书签的同一个用户进行标记的。因此，userresource的共现是不完整的：它们在特定的标记集上是有限的。如果所有用户都有相同的兴趣，pLSA和ITM将执行类似的操作。我们相信，当用户兴趣变化较大时，ITM的性能将明显优于pLSA。虽然pLSA和ITM的性能差别很小，但pLSA在性能上比ITM好得多，因为pLSA忽略了用户信息，减少了训练过程中所需的迭代次数。然而，对于某些应用程序，如个性化资源发现，保留用户信息可能很重要。对于这些应用程序，保留这些信息的ITM模型可能比PLSA更好。以前研究中流行的与userquery相关的文档的方法依赖于对文档中和文档集合中出现的单词（包括元数据）的分析。传统的搜索引擎不能对动态生成其内容的信息源进行充分的索引。由于它们有稀疏的元数据，PLSA MWA ITM Google*CreyteComm 23 65 15>28GeoCoder 14 44 16>29WDellowner10 14 10 10表1：在系统使用desiredfunctionity（相同或链接）对10个资源进行筛选之前，必须检查的顶级预测的数量。每个模型都有100个主题。对于ITM，我们将interestsat的数量调整为20。*请注意，Google分别在CreivyteCommand和geocoder dataset的28个和29个检索资源中只返回8个和6个积极的资源。用户必须搜索正确的搜索词才能获得结果。最近的一项研究（Dong et al.2004)建议在Web服务的WSDL和UDDI中利用ZemeTadata，以便以无监督的方式搜索提供类似操作的Web服务。该工作建立在一个启发式上，即类似的操作往往在服务描述、操作名称和输入输出名称中用相似术语来描述。该方法使用聚类技术，利用从观察到的术语的共同出现计算出的内聚度和相关分数（距离）来对Web服务操作进行聚类。在这种方法中，给定的操作只能属于单个集群。同时，我们的方法建立在概率主题模型的基础上，允许一个特定的资源由多个主题生成，更加直观和健壮。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-4-14 16:04:45

尽管我们的目标是相似的，但我们的方法利用了由这些资源的读者或用户在社会书签系统中生成的更密集的描述性元数据，而不是由在线资源的作者创建的字或元数据。需要考虑的一个问题是，元数据不能直接用于对资源进行分类，因为它们来自不同的用户视图、兴趣和写作风格。人们需要算法来检测这些数据的模式，找出隐藏的主题，当已知时，这些主题将有助于正确地将相似的资源分组在一起。我们应用并扩展了概率主题模型，特别是pLSA(Hofmann，1999)来解决这一问题。我们的模型在概念上受到作者-主题模型（Rosen-Zvi et al.2004)的激励，在这个模型中，我们可以将注释资源的用户视为编写文档的作者。这种方法的目的是学习特定作者的主题分布；而我们的目标是学习某个资源的主题分布。模型参数估计采用Gibbs抽样；同时，我们使用了通用的EM算法来估计参数，因为它在分析上是简单的，并且易于实现。最相关的工作（Wu,Zhang,&Yu 2006）在社会注释数据Indel.icio.us中使用了多向方面模型。该模型没有像我们的模型那样明确地分离用户兴趣和资源主题。此外，本文还针对语义和个性化资源搜索的出现进行了研究，并通过实例验证了该方法能有效地缓解基于标记的资源搜索中存在的标记稀疏和同义性问题。另一方面，在我们的工作中，我们的模型被应用于对给定资源的搜索。资源发现的另一个研究领域是利用WebGraph中的社会网络信息。Google(Brin&Page，1998)使用从资源连接性中获得的访问率来衡量它们的受欢迎程度。HITS(Kleinberg，1999)也使用web图形来衡量相关资源的权限和中心值。同时，ARC(Chakrabarti et al.1998)扩展了HITS，包括资源超链接的内容信息，以提高系统性能。虽然目标有些相似，但我们的工作是利用社区生成的资源元数据来计算资源的相关性得分。结论：我们提出了一个建模社交注释过程的概率模型，并描述了一种在资源发现任务中利用该模型的方法。虽然我们不能直接与现有的搜索引擎相比较，但实验结果表明该方法是可行的，还有许多问题需要进一步研究。首先，我们希望研究模型的输出，特别是用户兴趣告诉我们什么。我们还希望通过识别资源的HTML格式并提取其元数据来自动化sourcemodeling过程。然后，我们将使用(he://kushmerick2003)中描述的技术来预测资源输入参数的语义类型。这将允许使用(Gazen&Minton2005；Lerman，Plangprasopchok，&Knoblock2006)中描述的工具自动查询资源并对返回的数据进行分类。我们将能够通过比较资源的输入和输出数据与种子的输入和输出数据来验证资源是否具有与种子相同的功能(Carman&Knoblock2007)。我们的下一个目标是泛化资源发现过程，这样用户就可以从查询或对信息需求的某种描述开始，而不是从种子开始。我们将研究将查询转换为标记的不同方法，这些标记可用于从mdel.icio.us中获取数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-4-14 16:04:46

此外，还有其他对资源分类可能有用的证据，如资源中的用户评论、内容和输入代码。我们计划扩展目前的工作，以统一来自注释和资源内容的证据，以提高资源发现的准确性。确认这项研究是基于部分由国家科学基金会根据授予号CNS-0615412和部分由DARPA根据合同号NBCHD030010支持的工作。参考文献[Brin&Page，1998]Brin,S.和Page,L.1998。计算机网络与ISDN系统30（1-7）：107-117.[卡曼与克诺布洛克2007]卡曼,M.J.和克诺布洛克,C.a.2007年。学习web信息源的语义描述。正在进行中。[Chakrabarti et al.1998]Chakrabarti,S.；Dom、B；吉布森；Kleinberg,J.；Raghavan，P.；和Rajagopalan，S.1998.通过分析超链接结构和相关文本自动编译资源列表。第7届国际万维网会议论文集[Dempster,Laird,&Rubin 1977年]Dempster,A.P.；莱尔德。M.；和鲁宾，1977年。通过em算法从完整数据中提取最大似然。皇家统计学会杂志。系列B（方法学）39(1):1-38.[Dong et al.2004]Dong,X.；A.Y.哈莱维；Madhavan,J.；Nemes,E.；张洁，2004。Simlarity搜索WebServices。正在进行中。VLDB,372-383.[Gazen&Minton2005]Gazen,B.C.和Minton,S.N.2005.AutoFeed：用于生成WebFeed的无监督学习系统。正在进行中。K-CAP 2005,3-10.[Heè&Kushmerick 2003]Heè，A.和Kushmerick,N.2003。学习将语义元数据附加到web服务。国际语义网会议，258-273。[Hofmann,T.1999。概率潜在语义分析。正在进行中。[Kleinberg，1999]J.M.Kleinberg，1999年。超链接环境中的Authoritativesources。ACM46(5):604-632.[Lerman,Plangprasopchok,&Knoblock,2006]Lerman,K.Plangprasopchok,A.；和Knoblock，C.A.2006，自动标记WebServices的输入和输出。正在进行中。AAAI的。[Lerman,Plangprasopchok,&Knoblock 2007年]Lerman,K.；Plangprasopchok,A.；和Knoblock,C.A.2007。在线信息源的语义标注。国际语义网与信息系统杂志，本体匹配专刊。基于香农熵的散度度量。IEEE信息论学报37（1）：145-151。[数学2004]数学A.2004。Folksonomies：通过共享元数据进行合作分类和交流[Popescul et al.2001]Popescul,A.；Ungar，L；彭诺克D.；和劳伦斯，2001年。insparse-data环境中统一协作和基于内容推荐的概率模型。第17届艺术情报不确定性会议，437-444.[Rosen-Zvi et al.2004]Rosen-Zvi,M.；Grif Fights,T.；Steyvers,M.；和Smyth,2004年版。作者和文档的author-topic模型。在AUAI\'04:第20届艺术情报不确定性会议的进程，487-494。美国弗吉尼亚州阿灵顿：AuaiPress.[Thakkar,Ambite,&Knoblock 2005]Thakkar,S.安比特，J.L.；和Knoblock，2005年。构建、优化和执行生物信息学web服务计划。VLDB学报第14（3）：330-353.[吴，张，余2006]吴旭；张，L；和Yu,Yu,2006。《探索语义网的社会注释》，WWW\'06:第15届万维网国际会议论文集，417-426.纽约，纽约，美国：ACM出版社。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群