全部版块 我的主页
论坛 经济学人 二区 外文文献专区
919 9
2022-06-10
英文标题:
《Semi-supervised Text Regression with Conditional Generative Adversarial
  Networks》
---
作者:
Tao Li, Xudong Liu, Shihan Su
---
最新提交年份:
2018
---
英文摘要:
  Enormous online textual information provides intriguing opportunities for understandings of social and economic semantics. In this paper, we propose a novel text regression model based on a conditional generative adversarial network (GAN), with an attempt to associate textual data and social outcomes in a semi-supervised manner. Besides promising potential of predicting capabilities, our superiorities are twofold: (i) the model works with unbalanced datasets of limited labelled data, which align with real-world scenarios; and (ii) predictions are obtained by an end-to-end framework, without explicitly selecting high-level representations. Finally we point out related datasets for experiments and future research directions.
---
中文摘要:
巨大的在线文本信息为理解社会和经济语义提供了有趣的机会。在本文中,我们提出了一种基于条件生成对抗网络(GAN)的文本回归模型,试图以半监督的方式将文本数据与社会结果联系起来。除了预测能力的潜在潜力外,我们的优势有两个:(i)该模型可以处理有限标记数据的不平衡数据集,这些数据集与真实世界场景相一致;和(ii)预测是通过端到端框架获得的,无需明确选择高级表示。最后指出了实验的相关数据集和未来的研究方向。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-10 21:11:19
条件生成对抗网络的半监督文本回归Stao LiPurdueUniversitytaoli@purdue.eduXudongLiuObEN,股份有限公司。xudong@oben.comShihan苏卡利佛尼亚研究所Technologyssu@caltech.eduAbstract-巨大的在线文本信息为理解社会和经济语义提供了有趣的机会。在本文中,我们提出了一种基于条件生成对抗网络(GAN)的文本回归模型,试图以半监督的方式将文本数据与社会结果联系起来。除了预测能力的潜在潜力外,我们的优势有两个:(i)该模型可以处理有限标记数据的不平衡数据集,这与现实场景相吻合;和(ii)预测是通过端到端框架获得的,无需显式选择高层表示。最后指出了实验的相关数据集和未来的研究方向。一、 互联网每天上传数百万条文本信息,嵌入了大量社会和经济现象的数据,不仅吸引了社会学家和经济学家,也吸引了统计学家和计算机科学家的一致兴趣。例如,[1]使用在线评论预测电影收入;根据社交媒体数据,[2]监测选举结果,[3]预测选举结果。据我们所知,文本回归的概念是由[4]首先引入的,他将其描述为:给定一段文本,预测与文本含义相关的真实世界连续数量。他们通过直接使用财务报告,运用线性模型来估计财务风险,并声称与以前的方法相比,其表现显著优于以往的方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 21:11:22
随后,提出了几种线性文本回归模型;举几个例子:[5]–[7]。尽管linearmodel易于解释和实现,但它严重依赖于高级文本表示的特定选择,无法正确捕获复杂的分布。深度神经网络最近在计算机视觉领域的成功(例如,[8]和[9])鼓励研究人员发掘其在自然语言处理方面的潜力。与图像合成不同,使用深层网络进行自然语言生成(NLG)是出了名的困难,因为句子的特征空间是离散的,因此不连续且不可微。[11] 通过使用从softmax函数获得的一个热向量进行反向组织,解决了此问题。[12] 对鉴别器的目标函数使用排名分数,而不是真/假预测。我们使用GANs进行文本回归的想法受到了NLG最近进展的启发(例如,[13]和[14])。我们进一步将重点从真实的语言合成转移到从LSTM生成Adversarial样本【15】,LSTM与againsta鉴别器竞争回归(见图1)。我们的模型的性能是由深度神经网络捕获复杂分布的能力保证的,特别是当以对抗方式获得时。在有限的监督下进行培训的能力也有助于未来的应用前景。本文的其余部分组织如下:在第二节中,我们讨论了现有的文本回归技术和GANs半监督学习中的前期工作;模型详见第三节;我们在第四节通过未来的工作来总结本文。二、相关工作a。文本回归以前的文本回归尝试主要集中于在线模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 21:11:25
[4] 在财务报告中采用支持向量回归(SVR)[16]预测股票收益率的波动性,股票收益率是一种广泛使用的财务风险衡量指标,与最新技术相比,报告的表现显著优于其他技术。为了将电影的在线评论与相应的收入联系起来,[1]提取了文本评论的高级特征,并将其纳入弹性网络模型中[17]。[3] 利用多任务学习方案,利用文本数据和用户档案预测投票意图。如前所述,线性模型有时过于简单,无法正确捕捉真实场景。[18] 提出了第一个非线性模型,一个深度卷积神经网络,用于文本回归,在有限的监督下超过了之前的arteven状态。B、 半监督学习半监督学习解决了当只有一小部分标签可用时,数据和标签之间的映射学习问题。早期的半监督学习生成模型方法考虑了高斯混合模型(Gaussian mixturemodels)[19]和非参数密度模型(non-Parameter density models)[20],但在可扩展性和推理精度方面受到限制。最近[21]通过开发用于模型和变分参数连接优化的随机变分推理算法来解决这个问题。由于生成性对抗网络(GANs)在生成真实图像方面很有前景[22],人们提出了几种在半监督学习中使用GANs的方法。【23】将鉴别器(D)扩展为K类分类器,目标函数为最小化EFIG。TR-GAN模型的架构。生成图像的预测确定性,而GeneratorAms用于最大化相同的目标。【24】对Kclass鉴别器进行了扩充,将K+1标签作为生成图像的伪标签。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 21:11:28
这些工作表明,合并个人目标可以使分类鲁棒性和数据的学习更加有效。虽然之前的工作主要关注分类设置,但在我们的工作中,我们将基于GAN的EMI监督学习扩展到回归任务。三、 TR-GAN模型在本节中,我们详细介绍了半监督环境下文本回归的条件生成对抗网络(TR-GAN)。我们首先介绍单词嵌入方法。A、 单词嵌入单词嵌入方法学习每个单词的高维表示,从而包含单个标记无法捕获的语义信息。在我们的工作中,我们对textinput中的每个单词都进行了预训练单词嵌入。然后,数据中的每个文档都可以用一个D×N矩阵来表示,其中D是文档中的字数,N是单词嵌入到预测模型中的维数。B、 模型架构如图1所示,网络架构是一个带有生成器和鉴别器的传统GAN。短期记忆网络(LSTM)[15]被部署为自然语言的生成器。当嵌入被馈入LSTM时,生成器是一个基于LSTM的句子解码器。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 21:11:31
鉴别器是一个卷积神经网络(CNN)[25],其中几个残差块[26]通过以ReLU为激活函数的批量归一化进行跟踪。随后,两个完全连接的层被最终用于个性化学习和回归任务。目标函数采用平均绝对误差(MAE)进行回归任务,采用对抗性损失进行序列生成。该模型不仅可以通过优化的生成器生成真实的句子,而且还可以将鉴别器训练为多个预测任务的回归模型(例如,汽车销售预测、公众舆论跟踪,甚至社交媒体的流行病学监测),这些任务对广泛的利益相关者非常感兴趣。四、 未来的工作我们对使用GANs进行文本回归的想法感到兴奋。鉴于TR-GAN模型的性质,找到实验数据集并不具有挑战性;例如,[27]在YouTube视频下方收集了50000条文本评论,其中20000条是通过最先进的算法标记的,1000条是手动标记的。我们还想看看生成的语言是什么样子的,因为现有的将GANs用于NLG的文献只报告了原始的实验结果,而不是数字度量。感谢郝鹏和Kantapon Kaewtip的深入讨论。这项工作的想法最初是在[28]和[29]的讨论中提出的。参考文献【1】M.Joshi、D.Das、K.Gimpel和N.A.Smith,《电影评论和收入:文本回归实验》,《人类语言技术:计算语言学协会北美分会2010年年会》。计算语言学协会,2010年,第293-296页。[2] V.Lampos和N。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群