全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1174 13
2022-04-14
摘要翻译:
社交媒体网站Flickr允许用户上传他们的照片,用标签注释它们,提交给小组,还可以通过添加其他用户作为联系人来形成社交网络。Flickr提供了多种浏览或搜索的方式。一个选项是标记搜索,它返回所有用特定关键字标记的图像。如果关键字不明确,例如“甲壳虫”可能意味着昆虫或汽车,标签搜索结果将包括许多与用户在执行查询时的感觉无关的图像。我们声称用户通过他们以联系人和图像注释的形式添加的元数据来表达他们的摄影兴趣。我们展示了如何利用此元数据为用户个性化搜索结果,从而提高搜索性能。首先,我们证明了通过用户的联系人或包含这些联系人的更大的社交网络过滤标签搜索结果可以显著提高搜索精度。其次,我们描述了一个概率模型,利用标签信息发现包含在搜索结果中的潜在主题。类似地,用户的兴趣可以通过他们用来注释图像的标签来描述。然后,通过在用户感兴趣的主题上查找图像,使用该模型发现的潜在主题来个性化搜索结果。
---
英文标题:
《Personalizing Image Search Results on Flickr》
---
作者:
Kristina Lerman, Anon Plangprasopchok and Chio Wong
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Information Retrieval        信息检索
分类描述:Covers indexing, dictionaries, retrieval, content and analysis. Roughly includes material in ACM Subject Classes H.3.0, H.3.1, H.3.2, H.3.3, and H.3.4.
涵盖索引,字典,检索,内容和分析。大致包括ACM主题课程H.3.0、H.3.1、H.3.2、H.3.3和H.3.4中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Digital Libraries        数字图书馆
分类描述:Covers all aspects of the digital library design and document and text creation. Note that there will be some overlap with Information Retrieval (which is a separate subject area). Roughly includes material in ACM Subject Classes H.3.5, H.3.6, H.3.7, I.7.
涵盖了数字图书馆设计和文献及文本创作的各个方面。注意,与信息检索(这是一个单独的主题领域)会有一些重叠。大致包括ACM课程H.3.5、H.3.6、H.3.7、I.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Human-Computer Interaction        人机交互
分类描述:Covers human factors, user interfaces, and collaborative computing. Roughly includes material in ACM Subject Classes H.1.2 and all of H.5, except for H.5.1, which is more likely to have Multimedia as the primary subject area.
包括人为因素、用户界面和协作计算。大致包括ACM学科课程H.1.2和所有H.5中的材料,除了H.5.1,它更有可能以多媒体作为主要学科领域。
--

---
英文摘要:
  The social media site Flickr allows users to upload their photos, annotate them with tags, submit them to groups, and also to form social networks by adding other users as contacts. Flickr offers multiple ways of browsing or searching it. One option is tag search, which returns all images tagged with a specific keyword. If the keyword is ambiguous, e.g., ``beetle\'\' could mean an insect or a car, tag search results will include many images that are not relevant to the sense the user had in mind when executing the query. We claim that users express their photography interests through the metadata they add in the form of contacts and image annotations. We show how to exploit this metadata to personalize search results for the user, thereby improving search performance. First, we show that we can significantly improve search precision by filtering tag search results by user\'s contacts or a larger social network that includes those contact\'s contacts. Secondly, we describe a probabilistic model that takes advantage of tag information to discover latent topics contained in the search results. The users\' interests can similarly be described by the tags they used for annotating their images. The latent topics found by the model are then used to personalize search results by finding images on topics that are of interest to the user.
---
PDF下载:
-->
English_Paper.pdf
大小:(251.71 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-14 16:04:55
在FlickrKristina Lerman、Anon Plangprasopchok和Chio Wong University of South California Information Sciences Institute4676 Martialty WayMarina del Rey,California 90292{Lerman,plangpra,chiowong}@isi.eduabstract社交媒体网站Flickr允许用户上传他们的照片,用标签注释它们,提交给组,还可以通过添加其他用户作为联系人来形成社交网络。Flickr提供多种浏览或搜索方式。其中一个选项是标记搜索,它返回所有用Aspeciforcc关键字标记的图像。如果关键字不明确,例如,“甲壳虫”可能意味着一只昆虫或一辆汽车,标签搜索结果将包括与用户在执行查询时的感觉无关的任何图像。我们声称用户通过他们以联系人和图像注释的形式添加的元数据来表达他们的摄影兴趣。我们展示了如何利用此元数据为用户个性化搜索结果,从而提高搜索性能。首先,我们展示了通过用户的联系人或包括这些联系人的联系人的更大的社交网络来搜索标签搜索结果,我们可以显著地提高搜索精度。其次,描述了利用标签信息发现搜索结果中潜在主题的概率模型。用户的兴趣可以通过他们用来注释图像的标签来描述。然后,该模型发现的潜在主题被用来通过在用户感兴趣的主题上搜索图像来个性化搜索结果。简介光共享网站Flickr是新一代网站中最早和更受欢迎的例子之一,标签为社交媒体,其内容主要由用户驱动。社交媒体的其他例子包括:博客(允许用户分享想法并接收反馈的个人在线期刊)、维基百科(一个集体编写和编辑的在线百科全书)、del.icio.us和digg(允许用户分别分享、讨论和排名网页和新闻故事的网站)。社交媒体的兴起凸显了网络的一场变革,这场变革与其诞生一样具有根本性。用户不是简单地搜索和被动地消费信息,而是协作地创建、评估和分发信息。在不久的将来,由社交媒体支持的新的信息处理应用程序将包括个性化信息发现工具、利用“群体智慧”的应用程序(例如紧急语义和协作Incopyrightc 2018,美国艺术情报协会(www.aaai.org)。保留所有权利。编队评估)、对社区结构的更深入分析以识别趋势和专家,以及许多其他仍然依赖于想象的应用程序。社交媒体网站共有四个特征:(1)用户在各种媒体类型中创建或贡献内容;(2)用户用标签注释内容;(3)用户通过积极投票或被动使用内容来评价内容;(4)用户通过指定其他兴趣相似的用户作为联系人或朋友来创建社交网络。在使用这些网站的过程中,用户以社交网络、注释和评级的形式添加了丰富的元数据。这些元数据的大量存在将导致新的算法的发展,以解决各种信息处理问题,从新的推荐到改进的信息发现算法。本文介绍了如何使用Flickrcan上的用户添加的元数据来改善图像搜索结果。我们声称,用户在Flickr上以多种方式表达他们的摄影兴趣,通过将他们欣赏的作品添加到他们的社交网络中,并通过他们用来注释自己图像的标签来表达他们的摄影兴趣。我们将展示如何利用这些信息对个人用户个性化搜索结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:05:01
首先,我们描述了标记以及为什么它可以被视为用户兴趣的有用表达,以及在使用标记时出现的一些挑战。在“剖析Flickr”一节中,我们详细描述了Flickr及其功能,包括标记搜索功能。在“DataCollections”一节中,我们描述了从Flickr收集的数据集,包括图像搜索结果和用户信息。在“按联系人个性化”和“按标签个性化”小节中,我们分别介绍了通过按联系人和按标签个性化来个性化单个用户搜索结果的两种方法。我们在我们的Flickr数据集上评估每种方法的性能。我们通过讨论结果和未来的工作来进行讨论。用于组织imagesTags的标记是基于关键字的元数据,并与一些内容相关联。标签是用户组织自己内容的一种手段,以方便搜索和浏览相关信息。它因社交书签网站Delicious而普及,该网站允许用户在他们最喜欢的网站上添加描述性标记。近年来,许多其他社交媒体网站都采用了标签,使用户能够为博客(Technorati)、图像(Flickr)、音乐(Last.fm)、科学论文(CiteULike)、视频(YouTube)等添加标签。标签系统的显著特点是使用不受控制的词汇表。这与以前通过正式分类法和分类系统组织信息的尝试形成了鲜明的对比。一个正式的分类系统,例如林奈生物分类,把一个对象放在一个层次结构中的一个独特的位置。因此,老虎(Panthera tigris)是属于Panthera属的食肉哺乳动物,也包括大型猫科动物,如狮子和豹子。老虎也属于猫科,包括小型猫科,如熟悉的猫科家猫。标签是一种非等级和非排他性的分类,这意味着用户可以选择突出标记对象的任何一个方面或属性。根据Golder and Huberman(Golder and Huberman2005)的示例,假设一个用户拍摄了一张西伯利亚虎的图像。最有可能的是,用户不熟悉这种物种的正式名称,会用关键字“老虎”来标记它。根据他的需求心情,用户甚至会用更一般或更特殊的术语来标记它,比如“动物”、“哺乳动物”或“西伯利亚人”。用户还可能注意到这张照片是在“动物园”拍摄的,他使用了他的“长焦”镜头拍摄的。除了根据用于拍摄照片的设备、拍摄图像的地点、描述的动物类型甚至动物的出处将图像强制划分为一个层次或多个层次之外,标签系统允许用户通过在任何标签上配置整个图像集来根据图像的任何属性定位图像。因此,在标签“Tiger”上搜索将返回用户hastaken的所有老虎图像,包括西伯利亚虎和孟加拉虎,而在“西伯利亚”上搜索将返回用户拍摄的西伯利亚动物、人或文物的图像。对“西伯利亚”和“老虎”标签的过滤将返回用这些关键字标记的图像的交叉点,换句话说,西伯利亚老虎的图像。正如Golder和Huberman指出的,当用户试图通过关键字将语义附加到对象时,标记系统容易出现问题。这些问题在社交媒体中加剧,用户可能使用不同的标记约定,但仍然希望利用他人的标记活动。figurrst问题是同音异义,相同的标签可能有不同的含义。例如,“老虎”标签可以应用于哺乳动物或苹果计算机的操作系统。在“老虎”标签上搜索将返回许多与食肉哺乳动物无关的图像,需要用户筛选可能大量的无关内容。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:05:09
与同音异义有关的另一个问题是一词多义,当一个词有多个相关的意思时,就会产生一词多义,比如“Apple”指的是thecompany或它的任何产品。另一个问题是如何使用同义词://del.icio.,或具有相同或相关意义的多个词,例如,“婴儿”和“婴儿”这里的问题是,如果用户想要所有年幼儿童在他们生命的第一年的图像,搜索标签“baby”可能不会返回所有相关图像,因为其他用户可能会用“婴儿”标记类似的照片。当然,复数(“老虎”vs“老虎”)和许多其他标记特性(“我儿子”vs“儿子”)也可能会混淆一个标记系统。戈尔德和胡伯曼发现了使用标签进行分类时会出现的另一个问题--“基本级别”。一个给定的项目可以用一系列特定的术语来描述,从特定到一般。西伯利亚虎可以被描述为“老虎”,但也可以被描述为“哺乳动物”和“动物”基本级别是人们在与他人交流时为一个物体选择的类别。因此,对大多数人来说,犬类的基本水平是“狗”,而不是更一般的“动物”或更特殊的“小猎犬”。然而,构成基本水平的差异是个体之间的,在很大程度上取决于专业知识的程度。对于狗专家来说,基本级别可能是更具体的“小猎犬”或“狮子狗”,而不是“狗”。当不同的用户选择在不同的具体级别描述项目时,基本级别的问题就出现了。例如,狗专家将小猎犬的图像标记为“beagle”,而普通用户可能会将类似的图像标记为“dog”。除非用户知道基本级别的变化并在tagsearch中提供更多特定(和更通用)的关键字,否则他可能会错过大量相关的图像。尽管存在这些问题,标签是一个轻量级的、可操作的分类系统。越来越多的taggedimages提供了用户在Flickr上采用标签的证据(Marlow et al.2006)。有人猜测(Mika2005)集体标记将导致一个共同的非正式分类系统,被称为“大众分类法”,将用于组织来自所有用户的所有信息。在标记之上开发增值系统,例如,如何让用户更好地浏览搜索相关项目,只会加快对标记的更广泛接受。FlickrFlickr的解剖学包括一系列相互链接的用户、照片、标记和组页。一个典型的Flickr照片页面显示在Infigure1中。它提供了关于图像的各种信息:谁上传了它,什么时候,它提交给了什么小组,它的标签,谁对图像发表了评论,什么时候,该图像被浏览了多少次或被标记为“收藏”。点击用户的名字会弹出该用户的sphoto流,其中显示了她上传的最新照片,她标记为“收藏”的图像,以及她的Profirele,其中提供了关于该用户的信息,包括她的联系人和她所属小组的列表。点击tagkr会显示用户的图片,这些图片都是用这个关键字标记的,或者所有公共图片都是用类似的标签标记的。最后,group链接会弹出这个组的页面,其中会显示照片组、组成员、流行标签、讨论和其他关于这个组的信息。图1:FlickrGroups上典型的照片页面Flickr允许用户就任何可以想象的主题创建特殊的兴趣组。有用于展示特殊图像的组,用于显示正方形内圆圈图像的组,用于显示Cloorred(以及其他所有颜色和阴影)的组,用于给提交的图像评级的组,或用于生成评论的组。有些组甚至被设置为游戏,比如InfigurniteFlickr,其中的规则是用户发布一张自己看着显示最后一张图像的屏幕的图像(用户看着显示最后一张图像的屏幕的图像,等等)。组中存在冗余和重复。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:05:15
例如,儿童摄影组包括儿童肖像、Kidpix、Flickr的可爱孩子、行动中的孩子、蹒跚学步的孩子等。用户可以选择一个或多个组提交图像。我们认为,群组名称可以被视为一种公开同意的标签。contacts Flickr允许用户指定他人为友好联系人,并使跟踪他们的活动变得容易。如果点击“联系人”超链接,用户就会从他或她的联系人那里看到最多的图像。追踪离线活动是许多社交媒体网站的一个共同特征,也是它们的主要缺点之一。兴趣Flickr使用“兴趣”标准来评估图像的质量。虽然用来计算这一点的算法是保密的,以防止游戏系统,但某些指标是考虑在内的:“点击量来自哪里;谁对此发表评论,何时发表评论;谁把它标记为最爱;它的标签和其他许多东西都在不断变化。“浏览和搜索Flickr为用户提供了许多浏览和搜索方法。人们可以通过流行的标签,通过Groups目录,通过Explore页面和日历界面进行浏览,该界面提供了在任何一天访问500个最“有趣”的图像的权限。用户还可以通过最近引入的地图界面浏览GeoTagged图像。最后,Flickr允许通过“联系人”界面进行社交浏览,该界面在一个地方显示了用户指定联系人上传的信息。Flickr允许使用全文或TagSearch搜索照片。用户可以将搜索限制在所有公共照片、他或她自己的照片、她标记为她最喜欢的照片或特定联系人的照片上。高级搜索界面目前允许根据内容类型、日期和摄像进行进一步的搜索。默认情况下,搜索结果按上传的时间顺序相反显示,最近的ImageSonTop。另一个可用的选项是根据图像的“有趣”值显示图像,最“有趣”的图像在top.http://firminickr.com/explore/internated/personalizing搜索结果上。假设一个用户对野生动物摄影感兴趣,并想在Flickr上看到老虎的图像。用户可以搜索所有带有关键字“老虎”标签的公共图像。截至2007年3月,这样的搜索返回超过55500个结果。当图像按其“趣味性”排列时,搜索结果页包含许多老虎的图像,但也包括虎鲨、猫、黄油和鱼。搜索结果的子页面显示,除了老虎之外,还有儿童条纹西装、tiger lily、more cats、Mac OS X(tiger)截图、Gol Figning pictures(tiger Woods)等。换句话说,结果包括许多假阳性,这些图像与用户在执行搜索时的想法无关。我们假设当搜索词模棱两可时,用户的想法与她的兴趣有关。例如,当儿童摄影师在寻找“新生儿”的照片时,她最有可能对人类婴儿的照片感兴趣,而不是小猫、小狗或小鸭子。同样,一个专门从事微距摄影的自然摄影师在搜索关键字“甲虫”时可能对昆虫感兴趣,而不是大众汽车。用户在Flickr上通过多种方式表达了他们的摄影偏好和兴趣。他们通过他们的联系人(他们选择观看的摄影师)、他们上传到Flickr的图像、他们添加到这些图像中的标签、他们加入的小组以及他们标记为自己最喜欢的其他摄影师的图像来表达他们。在本文中,我们证明了我们可以通过利用用户的偏好信息来个性化标签搜索结果。在下面的小节中,我们描述了两种搜索个性化方法:一种依赖于用户创建的标记,另一种利用用户的联系人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-14 16:05:21
我们展示了这两种方法通过减少返回给用户的假阳性或不相关结果的数量来提高搜索性能。数据收集在展示如何使用用户创建的元数据来个性化标记搜索的结果时,我们使用它们的公共API.data集从Flickr中检索了各种数据。我们通过对Flickr上的所有公共图像执行单个关键字tagsearch来收集图像。我们明确指出,已注册的图像按其“兴趣度”值排序,最感兴趣的图像将被搜索。我们检索了以下每个搜索词的前4500个图像的链接:老虎可能的感官包括(a)大猫(例如,亚洲虎),(b)鲨鱼(虎鲨),(c)Timower(Tiger Lily),(d)Gol Figurng(Tiger Woods)等。新生儿可能的感官包括(a)人类婴儿,(b)小猫,(c)小狗,(d)小鸭,(e)小马驹等。甲虫可能的感官包括(a)一种昆虫和(b)大众汽车模型对于集中的每个图像,我们使用Flickr的API检索发布图像的用户的名字(图像所有者),以及所有图像的标签和组。查询相关不相关精度Newborn 412 83 0.82 Tiger 337 156 0.67甲虫232 268 0.46表1:标签搜索用户检索的前500幅图像的相关性结果我们的目标是个性化标签搜索结果;因此,为了评估我们的方法,我们需要有用户谁感兴趣的搜索结果正在被裁剪。我们已经发现了四个对eachsearch词的含义感兴趣的用户。对于新生的数据集,这些用户是论文的作者之一,以及该用户社交网络中其他三个对儿童摄影感兴趣的联系人。对于其他数据集,用户来自于那些图片被标签搜索选中的摄影师。我们研究了每个用户的优点,以确保用户对这个术语的意义感兴趣。我们专门查看了组成员和用户的标记。因此,对于老虎数据集,指向用户对底格里斯河虾感兴趣的组是大型猫科动物、动物园、野生动物摄影等。除了组成员资格,指向用户对某个主题感兴趣的标签,例如,对于甲虫数据集,我们假设使用标记nature和macro的用户对昆虫而不是汽车感兴趣。同样,对于新生数据集,上传了他们标记有婴儿和儿童的用户可能对人类新生儿感兴趣。对于12个用户,我们收集了他们的联系人或一级联系人的名字。对于这些联系人中的每一个,我们还检索了他们的联系人列表。这些被召回的2级联系人。除了联系人之外,我们还检索了用户用来注释图像的所有标签及其频率的列表。除了alltags之外,我们还为每个用户提取了一个相关标签列表,这些标签与作为搜索项的标签一起出现在用户照片中。换句话说,supposea用户是一名儿童摄影师,她在自己的照片中使用了“婴儿”、“儿童”、“新生儿”和“肖像”等标签。与newborn相关的标签是在用户自己的图像中与“newborn”标签同时出现的所有标签。这些信息也是通过Flickr的API.search Results提取的。我们手动评估每个数据集中的前500个图像,并将每个图像标记为相关性,如果它与上面列出的搜索词的感觉相关,不相关或未决定,如果评估者不能足够好地理解图像来判断其相关性。在表1中,我们报告了从这些搜索用户的角度判断的500个标记图像中的搜索精度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群