全部版块 我的主页
论坛 经济学人 二区 外文文献专区
637 8
2022-04-14
摘要翻译:
需要访问信息资源的信息集成应用程序,如中介或混搭,目前依赖于用户手动发现并在应用程序中集成它们。手工资源发现是一个缓慢的过程,需要用户筛选通过基于关键字的搜索获得的结果。虽然搜索方法已经发展到包括来自文件内容、其元数据以及参考页的内容和链接结构的证据,但它们仍然没有充分涵盖为响应查询而动态生成文件的信息源----通常称为“隐藏网络”。最近流行的社交书签网站允许用户注释和共享关于各种信息源的元数据,为资源发现提供了丰富的证据。本文描述了一个社会化书签系统del.icio.us中用户注释过程的概率模型。然后,我们使用该模型自动查找与特定信息域相关的资源。我们对从\\emph{del.icio.us}获得的数据的实验结果表明,该方法是一种帮助自动化资源发现任务的有希望的方法。
---
英文标题:
《Exploiting Social Annotation for Automatic Resource Discovery》
---
作者:
Anon Plangprasopchok and Kristina Lerman
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Digital Libraries        数字图书馆
分类描述:Covers all aspects of the digital library design and document and text creation. Note that there will be some overlap with Information Retrieval (which is a separate subject area). Roughly includes material in ACM Subject Classes H.3.5, H.3.6, H.3.7, I.7.
涵盖了数字图书馆设计和文献及文本创作的各个方面。注意,与信息检索(这是一个单独的主题领域)会有一些重叠。大致包括ACM课程H.3.5、H.3.6、H.3.7、I.7中的材料。
--

---
英文摘要:
  Information integration applications, such as mediators or mashups, that require access to information resources currently rely on users manually discovering and integrating them in the application. Manual resource discovery is a slow process, requiring the user to sift through results obtained via keyword-based search. Although search methods have advanced to include evidence from document contents, its metadata and the contents and link structure of the referring pages, they still do not adequately cover information sources -- often called ``the hidden Web\'\'-- that dynamically generate documents in response to a query. The recently popular social bookmarking sites, which allow users to annotate and share metadata about various information sources, provide rich evidence for resource discovery. In this paper, we describe a probabilistic model of the user annotation process in a social bookmarking system del.icio.us. We then use the model to automatically find resources relevant to a particular information domain. Our experimental results on data obtained from \\emph{del.icio.us} show this approach as a promising method for helping automate the resource discovery task.
---
PDF下载:
-->
English_Paper.pdf
大小:(105.48 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-14 16:04:09
为自动资源发现开发社会注释Yanon Plangprasopchok和Kristina Lermustc Information Sciences Institute 4676 Maritality WayMarina del Rey,CA 90292,USA{plangpra,lerman}@isi.eduAbstractInformation integration应用程序,如mediators或Mashups,需要访问信息资源,目前依赖于用户手动在应用程序中发现和集成它们。手工资源发现是一个缓慢的过程,需要用户筛选通过基于关键字的搜索获得的结果。尽管搜索方法已经发展到包括来自文档内容、itsmetadata以及referringpages的内容和链接结构的证据,但它们仍然没有充分涵盖信息源--通常被称为“隐藏的Web”--这些信息源根据查询动态生成文档。最近流行的社交书签网站允许用户注释和共享关于各种信息源的元数据,为资源发现提供了丰富的证据。本文描述了一个社会化书签系统del.icio.us中用户注释过程的概率模型。然后,我们使用themodel自动收集与特定信息域相关的资源。我们在从del.icio.us获得的数据上的实验结果表明,该方法是一种帮助自动化资源发现任务的理想方法。引言随着Web的成熟,越来越多的动态信息源和服务上线。与Web页面不同,这些资源根据查询动态生成内容。它们可以是基于HTML,通过HTML表单搜索站点,也可以是WebService。这些资源的激增导致了大量新的应用程序,包括基于Web的mashups,如Google maps和Yahoo pipes,信息集成应用程序(Thakkar,Ambite,&Knoblock2005)和intelligent of Figurence assistants(Lerman,Plangprasopchok,&Knoblock2007)。然而,在所有这些应用程序中,用户必须发现相关资源并对其建模。人工资源发现是一个非常费时费力的过程。用户通常使用适当的关键字和额外的参数(例如,要求.kml或.wsdl firegles)查询Web搜索引擎,然后必须检查搜索引擎返回的每一个资源,以评估其是否具有美国艺术情报协会2018(www.aaai.org)的DesiredCopyrightc。保留所有权利。功能。通常,在面临资源故障时,希望不是一个而是几个资源具有与信息集成应用程序的公度性相当的功能。识别几个等价资源使得手工资源发现变得更加耗时。信息集成领域的大多数研究都集中在自动建模资源上--即理解它们使用的数据的语义(Heá&Kushmerick2003;Lerman,Plangprasopchok,&Knoblock2006)和它们提供的功能(Carman&Knoblock2007)。相比之下,资源发现问题受到的关注要少得多。请注意,传统的搜索引擎根据资源的内容--它们所包含的单词或术语--对资源进行索引,在这个领域中不太可能有用,因为内容是动态生成的。最好的情况是,它们依赖于resourceauthors提供的元数据或链接到该资源的页面中的锚文本。Woogle(Dong et al.2004)是基于WSDL中提供的语法元数据索引Web服务的数量最多的搜索引擎之一。它允许用户搜索具有类似功能或接受与其他服务相同输入的服务。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:04:15
这些被称为“社交媒体”的网站允许用户共享文档,包括书签、照片或视频,并用自由格式的关键字标记内容。虽然标记的最初目的是帮助用户组织和管理他们自己的文档,但后来提出,可以通过一个被称为“大众分类法”的非正式分类系统来组织公共文档的集体标记(Mathes2004)。例如,请考虑http://geocoder.us,这是一个地理编码服务,它将输入作为地址并返回其纬度和经度。在社交书签网站del.icio.us上,这个资源已经被1000多人标记了。用户与此资源相关联的常见标记有“地图”、“地理编码”、“GPS\"、”地址“、”纬度“和”经度“。这个示例表明,尽管在社会注释系统中通常没有受控词汇表,但标记可以用于根据其功能对资源进行分类(http://del.icio.usity)。我们声称社会标记可以用于信息资源发现。我们探索了三个概率生成模型,它们可以用来描述del.icio.us上的标记过程。模型是概率语义模型(Hofmann,1999),它通过集成购物中心用户的书签行为来忽略单个用户。第二个模型,即三向方面模型(Wu,Zhang,&Yu 2006)被提出来对del.icio.usUsers的注释进行建模。该模型假设存在独立生成用户、资源和标记的观察值的aglobal概念空间。我们提出了另一种第三种模型,它是由作者-TopicModel(Rosen-Zvi et al.2004)提出的,它认为作者感兴趣的潜在主题生成文档中的单词。由于del.icio.us上的单个资源可以由不同的用户进行不同的标记,我们将“主题”(如作者-主题模型中所定义的)分为“(用户)兴趣”和“(资源)主题”。用户兴趣和资源主题一起为一个资源生成标记。为了描述资源发现的模型,我们用一个主题分布来描述每一个资源,然后将这个主题分布与所有其他资源的主题分布进行比较,以识别相关的资源。在下一节中,我们将描述如何在资源发现中使用标记数据,随后我们将介绍我们开发的用于资源发现任务的概率模型。本节还描述了两个早期相关的模型。然后,我们在从del.icio.us获得的数据集上比较了这三个模型的性能。我们回顾了以前的工作,并简要介绍了结论和未来的研究方向。问题了解假设用户需要了解提供某些功能的资源:例如,返回当前天气状况或给定地址的经纬度的服务。为了提高应用程序的健壮性和数据复盖率,我们通常需要多个具有必要功能的资源。在本文中,为了简单起见,我们确定用户提供了一个示例资源,我们称之为aseed,并希望用相同的功能收集更多的资源。所谓“same”是指一个资源,它将接受这些输入数据类型作为种子,并在对它们应用相同的操作后返回相同的数据类型作为种子。请注意,我们可能有一个更严格的要求,即资源返回与seed相同的数据,用于这些名称的输入,但我们不想排除可能具有不同覆盖范围的资源。我们声称,社会书签系统中的用户会根据他们的功能或主题(类别)来注释资源。虽然del.icio.us和similarsystems为用户提供了不同的文档注释方式,如注释和标记,但在本文中,我们只关注标记。因此,我们模型中的变量是资源R、用户U和标记T。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:04:21
用户u的resourcer的书签i可以形式化为元组hr,u,{t,t,...}ii,它可以进一步分解为资源、用户和标签的三重共生:hr,u,ti.rztntdzrutnb图1:概率潜在语义模型(左)和多向方面模型(右)的图形表示R、u、t和Z可重新表示变量“资源”、“用户”、“标签”和“主题”。ntrepress为一个特定的资源提供大量的标记;D表示资源的数目。同时,NBRE在social AnnotationSystem中呈现了许多资源-用户-标签的共存现象。请注意,所添加的圆圈表示观察到的变量。我们通过爬行del.icio.us来收集这些三元组。该系统提供三种类型的页面:标记页面--列出用特定关键字标记的allresources;一个userpage--列出所有已被bya特定用户作为书签的资源;和一个资源页面--列出用户与该资源关联的所有标签。del.icio.us还提供了一种在这些页面之间来回导航的方法,允许我们爬取站点。给定种子,我们得到del.icio.us显示的用户分配给它的最受欢迎的标记。接下来,我们收集使用这些标记注释的其他资源。对于其中的每一个,我们都收集theresource-user-tag三元组。我们使用这些数据来发现与种子功能相同的资源,如下文所述。方法我们使用概率模型来根据主题描述对收集的资源进行压缩描述。这种描述是不同主题可能如何描述特定资源的概率向量。随后,利用Jensen-Shannon散度计算资源之间的相似度(Lin,1991)。对于本节的其余部分,我们将描述概率模型。本文描述了现有的两种模型:概率潜在语义分析(pLSA)模型和三向面模型(MWA)。然后我们引入了一个新的模型,它明确地考虑了用户的兴趣和资源主题。我们比较了这些模型在三个del.icio.us数据集上的性能。概率潜在语义模型(pLSA)Hoffman(Hofmann,1999)提出了一个用于关联单词-文档共存的概率潜在语义模型。该模型假设一个特定的文档是由一组概念主题或主题Z组成的,文档中的词是由这些主题以一定的概率生成的。我们通过声明所有用户对特定资源的注释都有共识,从而使模型适应社会注释的上下文。与给定资源相关联的所有用户的所有书签被聚合到一个单一的语料库中。图1显示了该模型的图形表示。通过对所有用户的resourceuser-tag三元组hr、u、ti求和来计算特定资源-标记对的共现。联合分发资源和标记isp(r,(1)为了估计参数p(tz),p(zr),p(r)Wedefrine log Lavelihood L,它测量估计的参数如何与观察到的数据相匹配,其中n(r,t)是资源标签共现的数量。EM算法(Dempster,Laird,&Rubin 1977)被应用于估计那些使L.三向方面模型(MWA)最大化的参数。三向方面模型(或多向方面模型,MWA)最初被应用于文档推荐系统(Popescul等)。该模型考虑了用户兴趣(纯协作搜索)和文档内容(基于内容)。最近,将三向方面模型应用于社会标注数据,以证明社会标注系统中的涌现语义,并将这些语义用于信息检索(Wu,Zhang,&Yu 2006)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:04:28
在这个模型中,conceptualspace作为一个潜在变量Z被引入,它独立地为一个特定的三重hr、u、ti生成资源、用户和标记的出现(参见图1)。将资源、用户和标签的联合分布定义为:sp(r,u,t)=xzp(rz)p(uz)p(tz)p(z)(3)类似于pLSA,通过最大化对数似然目标函数来估计参数p(rz),p(uz),p(tz),p(z),L=pr,u,tn(r,u,t)log(p(r,u,t))。兴趣主题模型(interest-topic Model,ITM)是基于社会标注系统中用户具有广泛的兴趣这一观点而提出的。aparticular bookmark中的一组标签可以重新影响用户的兴趣和资源的主题。在三向方面模型中,使用asingle潜在变量来表示“兴趣”和“主题”可能不合适,因为这两个变量之间的混合可能会扭曲从资源上的视图分布计算出的初步相似度得分。IUTNTZRD图2:在拟议模型上的图形表示。r、U、T、I和Z分别表示变量“资源”、“用户”、“标签”、“兴趣”和“主题”。ntrepress为一个书签(由一个特定用户到一个特定资源)提供标记出现的数目;D表示社交标注系统中的许多书签,我们提出将潜在变量显式地分为两个:一个表示用户兴趣,一个表示用户兴趣;根据proposedmodel,资源-用户-标签共现的过程可以描述为一个随机过程:o用户u将一个资源r感兴趣,并愿意将其作为书签o用户u有自己感兴趣的资源I;然后根据用户的兴趣和资源的主题选择Tag t。该过程以图2的形式描述。根据上述过程,将资源、用户和Tag的联合概率写成asP(r,u,t)=xi,zp(ti,z)p(iu)p(zr)p(u)p(r)(4)以对数似然L作为估计所有参数的目标函数。请注意,p(u)和p(r)可以直接从观测数据中得到--估计包括三个参数p(ti,z)、p(iu)和p(zr)。L=xr,u,tn(r,u,t)log(p(r,u,t))(5)EM算法估计这些参数。在期待步骤中,在给定所有观测值的情况下,计算了隐变量i和Z的联合概率asp(i,祖,r,t)=P(ti,p(iu)p(zr)Pi,zp(ti,随后,z)p(iu)p(zr)(6),每个参数用p(i,祖,r,我们刚刚从E stepp(ti,z)=pr,un(r,u,t)p(i,zu,r,t)Pr,u,tn(r,u,t)p(i,zu,r,t)(7)p(iu)=Pr,tn(r,u,t)Pzp(i,zu,r,t)n(u)(8)p(zr)=Pu,tn(r,u,t)n(r)(9)算法在E步和M步之间迭代,直到所有参数值收敛。一旦所有模型学习完毕,我们使用资源p(zr)主题的分布,使用Jensen-Shannon发散计算资源和种子之间的相似性。我们收集了经验验证来评估我们的方法三种种子资源的数据:CreyteCommgeocoderand Wnydron。fiegrst资源允许用户跟踪给定的航班和航班号或起飞和到达机场的航班;第二资源返回给定地址的坐标;第三个资源提供特定地点的天气信息(由邮政编码、城市和州或机场提供)。我们的目标是收集其他资源,提供灾害性跟踪、地理编码和天气信息。我们的方法isto crawl del.icio.us收集可能与种子相关的资源;应用概率模型对资源的主题分布进行预测;然后根据其主题分布与种子的stopic分布的相似性对所有收集到的资源进行排序。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:04:34
抓取策略如下:对于每个种子,检索用户应用于该资源的20个最流行的标签o对于每个标签,检索已经用该标签注释的其他资源o对于每个资源,收集为其创建的所有书签(即资源-用户-标签三元组)我们编写了特殊用途的Web页面刮板来从del.icio.us中提取这些信息。原则上,我们可以通过收集标记和检索更多已经用这些标记标记的资源来继续扩大资源的集合,但实际上,即使在我们做了少量遍历后,我们也为WundergroundSeed获得了1000多万个三元组。我们在2006年5月获得了seed CremyteComm和Geocoder的数据集,并在2007年1月获得了seed Wdernborder的数据集。我们通过省略低(少于10个)和高(超过10000个)频率标签以及与这些标签相关的所有三元组来减少数据集。经过这种减少,我们只剩下(a)2,284,308个三元组和3,562个唯一资源;14,297个唯一标签;34,594个CremyteComm种子的唯一用户;(b)3,775,832个三胞胎,5,572个独特资源;16,887个唯一标记和46,764个http://www.comiytecomm.com/cgi-bin/track braight/http://geocoder.ushttp://www.wunderground.com/unique用户;(c)6,327,211个三胞胎,拥有7,176个独特资源;为Wdernbord种子提供了77,056个唯一标签和45,852个唯一用户。接下来,我们根据数据对所有三个模型进行了训练:pLSA、MWA和ITM。然后利用学习到的主题分布计算每个数据集中的资源与种子的相似度,并根据相似度对资源进行排序。我们根据以下条件手动检查模型产生的前100个资源来评估每个模型的性能:osame:如果该资源提供的输入表单采用与seed相同类型的数据并返回相同类型的输出数据,则该资源具有相同的功能:例如,retrightTracker采用一个Juight number并返回Juight Statusolink-to:该资源包含一个链接,该链接指向一个以thesame功能为种子的页面(请参见上面的条件)。虽然现在的评估是手动执行的,但我们计划在未来通过使用表单的元数据来预测输入的语义类型(Heá&Kushmerick2003),自动地查询源,从中提取数据,并使用(Gazen&Minton2005;Lerman,Plangprasopchok,&Knoblock2006)中描述的工具对其进行分类,从而自动化这一过程。我们将能够通过比较资源的输入和输出数据与种子的输入和输出数据来验证资源是否具有类似于种子的功能(Carman&Knoblock,2007)。请注意,由于自动查询和数据提取过程中的每一步都有一些失败的可能性,我们将需要识别比所需更多的相关资源,以确保我们能够自动验证其中的一些资源。图3显示了三个数据集中40或100个主题(和兴趣)的不同ModelStrath的性能。foungugure显示了前100名中具有与所定义的相同功能或包含指向具有相同功能的资源的链接的资源的数量。兴趣主题模型的表现略好于pLSA,而ITM和pLSA都明显优于MWA模型。将潜变量Z的维数从40增加到100通常会改善结果,尽管有时只是轻微的改善。谷歌的“相似页面”功能分别为三个种子cremyteComm、geocoder、wdernorder返回了28、29和15个资源,其中5、6和13个与种子具有相同的功能,3、0、0个链接到具有相同功能的资源。相比之下,ITM模型返回的相关结果是原来的三倍。表1提供了不同资源发现方法性能的另一个视图。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群