全部版块 我的主页
论坛 经济学人 二区 外文文献专区
760 17
2022-04-15
摘要翻译:
网页排序和协同过滤需要优化复杂的性能度量。目前的支持向量方法不能直接优化它们,而是侧重于两两比较。我们提出了一种新的方法,它允许直接优化相关的损失函数。这是通过Hilbert空间中的结构化估计来实现的。与最大边际马尔可夫网络优化多变量性能指标关系最密切。该方法的关键在于,在训练过程中,排序问题可以看作是一个线性分配问题,可以用匈牙利婚姻算法求解。在测试时,一个排序操作就足够了,因为我们的算法为每个(文档、查询)对分配一个相关性分数。实验表明,该算法速度快,效果良好。
---
英文标题:
《Direct Optimization of Ranking Measures》
---
作者:
Quoc Le and Alexander Smola
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Information Retrieval        信息检索
分类描述:Covers indexing, dictionaries, retrieval, content and analysis. Roughly includes material in ACM Subject Classes H.3.0, H.3.1, H.3.2, H.3.3, and H.3.4.
涵盖索引,字典,检索,内容和分析。大致包括ACM主题课程H.3.0、H.3.1、H.3.2、H.3.3和H.3.4中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--

---
英文摘要:
  Web page ranking and collaborative filtering require the optimization of sophisticated performance measures. Current Support Vector approaches are unable to optimize them directly and focus on pairwise comparisons instead. We present a new approach which allows direct optimization of the relevant loss functions. This is achieved via structured estimation in Hilbert spaces. It is most related to Max-Margin-Markov networks optimization of multivariate performance measures. Key to our approach is that during training the ranking problem can be viewed as a linear assignment problem, which can be solved by the Hungarian Marriage algorithm. At test time, a sort operation is sufficient, as our algorithm assigns a relevance score to every (document, query) pair. Experiments show that the our algorithm is fast and that it works very well.
---
PDF下载:
-->
English_Paper.pdf
大小:(299.43 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-15 09:58:17
排名的直接优化MeasuresQuoc v.Le*和Alex J.Smola 2008年2月5日AbstractWeb页面排名和协作配置需要优化复杂的性能指标。目前的支持向量方法不能直接优化它们,而是侧重于两两比较。我们提出了一种新的方法,通过Hilbert空间中的结构化估计来直接优化相关的损失函数。其中与多变量性能测度的MaxMargy-Markov网络优化最为相关。我们的方法的关键在于,在训练过程中,排序问题可以被看作是一个线性分配问题,可以用匈牙利婚姻算法来解决。在测试时,sortoperation是su-cient,因为我们的算法为每个(文档、查询)对分配一个相关性分数。实验表明,本文提出的算法速度快,效果好。1.介绍排名,特别是网页排名,一直是机器学习领域的一个研究热点。现在人们普遍认为,排序可以被看作是一个有监督的学习问题,比单独使用一个特征具有更好的性能[Burges et al.,2005,Caoet al.,2006]。学习排名可以被看作是学习数据(例如网页)排序的尝试。虽然理想情况下,人们可能希望有一个学习所有匹配web页面的分区排序的ranker,但用户最关心的是系统返回的最高(部分)结果。例如,参见[Cao et al.,2006]的讨论。这在信息检索中发展的相应的性能度量中表现出来,如归一化贴现累积增益(NDCG)、平均倒数秩(MRR)、精度@n或期望秩效用(ERU)。它们被用来解决评估者、搜索引擎或推荐系统的问题[Voorhees,2001,Jarvelin和Kekalainen,2002,Breese et al.,1998,Basilico和Hofmann,2004]。从矢量空间模型[Salton,1971,Salton and McGill,1983]开始,人们提出了各种基于特征的方法[Lee et al.,1997]。流行的特性集包括BM25[Robertson et al.,1994]或其变体[Robertson and Hull,2000]。遵循理查森等人的意图。[2006]表明,将这些方法与机器学习相结合,可以显著提高ranker的性能。在过去的十年里,人们提出了许多机器学习方法。序数回归[Herbrich et al.,2000,Chu and Keerthi,2005]使用类似SVM的大边界方法和神经网络[Burges et al.,2005]是一些常见的方法。紧随其后的是感知器[Crammer and Singer,2002]和在线方法,如[Crammer and Singer,2005,Basilico and Hofmann,2004]。最先进的技术基本上是描述部分*quoc.le@tuebingen.mpg.de,马克斯·普朗克生物控制论研究所,SPEMANNSTR。38,72076 t-Ubingen,Germanize@alex.smola@NICTA.com.au,统计机器学习程序,NICTA和ANU,Canberra,2600 ACT,Australiaa通过一个有向无环图排序,并将错误排序引起的成本与该图的边相关联。这些方法的目的是在已注册的文档上找到最佳的排序函数。然而,在这一框架中表达复杂的(但常用的)度量是不可取的,直到最近才有两篇理论论文[Rudin,2006,Cossock和Zhang,2006]讨论了学习排名优先于得分最高的文档的问题。然而,[Rudin,2006]中的成本函数与评估管理者绩效时使用的成本函数仅有模糊的联系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:58:23
[Cossock and Zhang,2006]认为,在大样本的限制下,标签上的回归可能是可行的。我们的工作使用支持向量机的结构化输出框架[Tsochantaridis et al.,2005,Joachims,2005,Taskar et al.,2004]来处理排序中性能度量固有的非凸性。由于内核方法中固有的容量控制,SIT很好地推广到测试观测[Schéolkopf和Smola,2002]。我们提出的优化问题非常普遍:它以一种即插即用的方式涵盖了广泛的现有标准。它扩展到位置相关的排序和基于多样性的得分。特别相关的是最近的两篇论文[Joachims,2005,Burges et al.,2007]解决了信息检索损失函数的复杂性。更为具体的是,[Joachims,2005]表明,两个与排序相关的分数,精度@n和ROC曲线下的面积,可以通过使用结构化输出支持向量机(SVMStruct)来优化。我们在算法中使用类似的策略,利用[Tsochantaridis et al.,2005]中提出的不等式来获得排序度量的直接优化(DORM)。[Burges et al.,2007]在没有凸松弛的情况下考虑了一个类似的问题,相反,他们直接通过处理凸成本函数的梯度来优化凸成本函数。概述:在对结构化估计的总结之后,我们讨论了信息检索中的性能度量(第3节),并将它们表示为内积。在第4节中,我们计算了性能准则的凸松弛,并说明了如何利用线性赋值来求解它。在web搜索和协作搜索上的实验表明,DORM是快速的,并且工作良好。2结构化估计在下面,我们将开发一种方法,通过某种函数g(d,q)来对隶属于q的对象(如文档d)进行排序。显然,我们希望确保高度相关的文档将具有较高的分数,即较大的G值。同时,我们要保证得到的排序相对于相关排序得分是最优的。对于instancefor NDCG@10,即只有10个检索到的文档很重要的分数,如果分数g将给高度无关的页面分配什么特定值并不非常重要,只要它们保持在接受阈值以下。显然,我们可以使用工程技术来构造一个合理的函数(PageRank就是这样一个函数的例子)。然而,我们也可以使用统计和机器学习来指导我们找到一个为此目的优化的函数。这就产生了一种更优化的方法来定义这样一个函数,而不需要经过深思熟虑的猜测。weuse的特殊工具是最大边际结构估计,正如Tsochantaridis等人所描述的那样。[2005]。关于更详细的讨论见原始参考文献。2.1问题解决大裕度结构估计,由[Taskar et al.,2004,Tsochantaridis et al.,2005]提出,是通过筛选相关的优化问题来解决映射X→Z的估计问题的一般策略。更具体地说,它解决了从给定模式x∈x的(结构化的)估计集合中,通过对函数f(x,Z)进行修正,从而使Z*(x):=argmaxz∈ZF(x,Z)成为一个匹配gz∈Z的估计问题,这类函数f(x,Z):=argmaxz∈ZF(x,Z):f(x,Z):f(x,Z):f(x,Z):f(x,Z):f(x,Z):f(x,Z)。(1)这意味着不是直接定义映射X→Z,而是将问题简化为定义X×Z上的实值函数。在排序情况下,X∈X对应于一组具有相应查询的文档,而Z对应于对文档进行排序以使最相关的文档被排序的置换。因此f将是一个函数的文档,查询,anda排列。然后我们的目标是找出这样一个f,使其为“正确的”排列最大化。为了评估估计z*(x)表现得有多好,我们需要引入一个损失函数(y,z),这取决于z和一些参考标签y,它决定了z的损失。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:58:30
例如,如果我们要解决二元分类问题y,z∈{±1},其中y是观察标号,z是估计值,我们可以选择Δ(y,z)=1-δy,z。也就是说,如果我们犯了一个错误,我们会招致1的惩罚,而如果我们估计y=z,则不会招致惩罚。在回归的情况下,这可能是(y,z)=(y-z)。最后,在序列注释的情况下,y和z都是二进制序列,[Taskar et al.,2004,Tsochantaridis et al.,2005]使用Hamming损失。在我们将在第3节中讨论的排序案例中,损失@将对应于以次优方式对WTA、MRR、DCG、NDCG、ERU或类似标准进行排序的文件所产生的关系。总之,我们的目标是构造一个函数f来最小化f对观察值X={X,...,xm}和参考标签y={y,...,ym}remp[f,X,y]:=mxi=1(yi,argmaxz∈ZF(xi,z))的aset引起的误差。(2)我们将REMP[f,X,Y]称为经验风险。后者关于f的直接极小化是一个高度非凸优化问题。对于经验风险remp[f,X,Y]而言,良好的性能并不能在一个看不见的测试集上得到良好的性能。在实践中,经验风险的严格最小化实际上确保了测试集的糟糕性能,这是由于过度配置造成的。这个问题在机器学习文献中已经被广泛地讨论过(参见[Vapnik,1982])。为了处理第二个问题,我们将在经验风险中添加一个正则化项(这里是二次惩罚)。为了解决这个问题,我们将计算损失的一个凸上界(yi,),Argmaxz∈ZF(xi,2.2凸上界我们利用一个关键不等式得到了损失最小化问题的凸上界引理1设f:X×z→R和:Y×z→R且设z∈z。在此情况下,如果ζ满足f(X,z)-f(X,z)≥(Y,z)-(Y,z)-(Y,z)-ζ对于所有的z∈X,则ζ≥(Y,argmaxz∈Zf(X,z))-(Y,z).此外,对ζ和f的约束是线性的,证明线性是明显的,因为ζ和f只是作为单独的项出现。为了查看声明,用z*(x):=argmaxz∈ZF(x,z)表示。由于这个不等式需要对所有z成立,所以它对z*(x)尤其成立。这意味着0≥f(x,z)-f(x,z*(x))≥ut(y,z*(x))-ut(y,z)-ζ。通过构造z*(x)这个不等式成立。重排证明索赔。通常,选择zto为z的最小值,并假定损失为zvanish,在这种情况下,ζ≥(z*)。注意,这个凸上界对于z=z*是紧的,如果满足这个不等式的极小ζ是选择的。2.3核。得到凸优化问题的最后一个成分是f的一个合适的函数类。原则上,任何类,如决策树、神经网络、Boosting中出现的弱学习者的凸组合等,都是可以接受的。为方便起见,我们选择f viaf(x,z)=hΦ(x,z),wi。(3)这里Φ(x,z)是特征映射,w是相应的权向量。这一公式的优点是通过选择直接映射Φ,可以很好地结合先验知识。此外,可以用核函数SK((x,z),(x,z))=Φ(x,z),Φ(x,z)(4)来表示所产生的优化和估计问题,而不需要显式求Φ(x,z)。这使得我们可以在保持优化问题的数量参数的同时,处理informnite-dimensionalfeature空间。此外,我们可以通过保持kwk su_ciently小来控制f的复杂度(对于二进制分类,这相当于大的边距分类)。用z的zithe值表示,对于该值,θ(yi,z)是最小的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:58:36
此外,设C>0为Gularization常数,指定经验风险最小化与求一个“简单”函数F之间的交易。结合(2)、引理1和(3)得到如下优化问题:minimizew,ζkwk+cmxi=1ζi(5a)服从hw,Φ(xi,zi)-Φ(xi,z)i≥(yi,z)-ζi(5b)对于所有ζi≥0和z∈z和i∈{1,...,m}。在排序情况下,我们假定(在不丧失一般性的情况下)文档是按相关性递减的顺序进行排序的。在这种情况下,zi将对应于保持文档顺序不变的单位排列。2.4优化可以表明[Taskar et al.,2004](5)的解是由f(x,z)=x,zαizk((x,z),(x,z))给出的。(6)算法1列生成输入:数据十一、标签易,样本量m,公差初始化所有i的si=,且w=0。重复i=1 to m dow=pipz∈SiαizΦ(xi,z)z==argmaxz∈zhw,Φ(xi,z)i+(yi,z)ζ=max(0,maxz∈sihw,Φ(xi,z)i+(yi,z))如果hw,Φ(xi,z^)i+(yi,z)>ζ只使用αIz来增加约束集sièsiz^优化(7),其中z∈si.end ifend直到在这个迭代中S没有改变,这一事实也通常被称为表示定理[Schéolkopf和Smola,2002]。通过求解(5)的对偶优化问题得到了结论:α-Iz:α-xi,j,z,zαizαjzk((xi,z),(xj,z))-xi,z(yi,z)αiz(7a)主题toxzαIz≤C,αIz≥0。(7b)解决优化问题(7)是一个艰巨的挑战。特别是,对于largeZ(例如,在一组文档上的所有排列的空间)来说,变量的数量大得令人望而却步,而且在实际时间内基本上不可能找到最优解。相反,可以使用列生成[Tsochantaridis et al.,2005]在多项式时间内获得近似解。其中的关键思想是检查约束(5b),以找出当前参数集违反了哪些约束,并使用这些信息来提高优化问题的值。也就是说,我们需要对gmaxz∈z(yi,z)+hw,Φ(xi,z)i,(8),因为这是约束(5b)变得最紧的项。如果Z是一个小的值集,这最好通过强力计算来实现。对于二进制序列,通常使用动态编程。在排序的情况下,其中Z是置换空间,我们可以看到(8)可以转化为线性分配问题。算法1具有良好的收敛性。根据[Tsochantaridis et al.,2005],它在最多添加2n\\\\\\/之后终止,8c}r/步,式中,“}”是损失“}”的上界,z)和R是KΦ(xi,z)上的一个上界,为了使上述框架适应排名设置,我们需要解决三个问题:a)我们需要导出一个损失函数来进行排序,b)我们需要开发一个适当的特征图Φ,它考虑到文档集合、查询和排列,以及c)我们需要找到一个算法来解决(8)e_ciently.3排序和丢失函数3.1 e_ciently的正式描述,商业排名者、搜索引擎或推荐系统通常采用一次一个文档的方法来回答查询q:通过评估变量意义=(q,D)文档-查询对的相关性来评估候选文档列表(同时保留n个得分最高的文档堆)。..,dili}文档的qirij∈[0,....,rmax]相关文档dijyi={ri1,...,rili}引用labelf(x,π)全局评分函数(qi,dij)个体评分函数m用于训练的查询数a(文档,查询)-pari一次一个。为此,需要一个评分函数g(d,q),它为给定查询的每个文档分配一个评分。评分器的性能通常通过一组标签y:={r,...,rl},其中RI∈[0,....,rmax],其中0对应于“不相关”,rmax对应于“高度相关”。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:58:42
训练实例containdocument由专家标记的查询对。对于商业搜索引擎或推荐系统来说,这样的数据通常只有不到十个层次的相关性。在训练时,我们给出了m个查询的实例qi,文档集合Diof cardinalityli,并用yi=di标记yi。在上一节的上下文中,一组文档diincomposition和一个匹配查询qi将扮演模式的角色,即xi:=(qi,diq,...,dili)。同样,文档dij的相应专家评级的引用标签rij∈yiconsist。我们希望找到一些映射f,以便对一个新的documentsd集合进行排序。.。,通过排序g(di,q)与y在预期中符合得很好。与[Matveeva et al.,2006]不同,我们希望获得一个对给定性能度量的查询表现良好的单个排序。注意,还有一个与排序文档相关联的处理步骤:对于每个文档查询对(d,q),我们必须构造一个特征向量x。本文假定特征向量是给定的,并用(d,q)表示x。例如BM25[Robertson et al.,1994,Robertson and Hull,2000]、date、click-through logs[Joachims,2002]已经被证明是一组完备的特征。基于排列的方法是指通过比较两组排序来计算性能度量。例如,\'winnertakes all\'(WTA)、平均倒数秩(MRR)[Voorhees,2001]、平均平均精度(MAP)和归一化折现累积增益(NDCG)[Jarvelin and Kekalainen,2002]都充分利用了这一特性。我们将删除参数D,q,g,只要上下文清楚。另外,给定一个向量v∈Rmwe用v(π)表示v按π的排列,即v(π)i=vπ(i)。最后,在不丧失一般性的情况下(为了方便表示),我们假设y按降序排序,即最相关的文档。也就是说,相同的置换π=1将对应于相对于引用标签返回最相关文档的排序。同样地,我们将用π来表示所有排列的空间(即Z=π)。对于计算的e-ciency(不是出于理论上的原因),不希望f联合依赖于{d,....,dl}。3.2分数和输者全取(WTA):如果firefrst文档相关,即如果y(π)=r,则分数为1,否则为0。我们可以重写asWTA(π,y)=ha(π),b(y)i(9),其中ai=δ(i,1)和bi=δ(ri,r)。注意,可能有不止一个文档被认为是相关的。在这种情况下,WTA(π,y)对于几类排列将是最大的。平均倒数秩(MRR):我们假设只有一个顶级排序文档。我们有Emrr(π,y)=ha(π),b(y)i(10),其中ai=1/i和bi=δ(i,1)。换句话说,倒数秩是分配给文档d的秩的逆,文档d是最相关的文档。MRR的名字来源于这样一个事实,即这个数量在几个查询中的典型平均。贴现累积增益(DCG和DCG@n):WTA和MRR只使用π的一个条目,即π(1)来评估排名的质量。贴现累积量是一个更平衡的分数:DCG(π,y)=ha(π),b(y)i(11),其中AI=1/log(i+1)和BI=2RI-1。在这里,如果检索到的相关文档排名较高,则会支付费用,因为COE_Cients AI-1是单调递减的。不考虑所有等级的DCG变体是DCG@n。这里,如果i≤n,ai=1/log(i+1),否则ai=0。也就是说,我们只关心排名靠前的n个条目。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群