全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3044 1
2020-09-11
作者分析中的风格特征工程技术
抽象:
作者身份分析(AA)是一项研究,旨在揭示文本数据中作者的隐藏属性。它根据文本中反映的写作风格提取作者的身份和社会语言特征。该过程对于各个领域都是必不可少的,例如网络犯罪调查,心理语言学,政治社会化等。但是,大多数以前的技术严重依赖于手动特征工程过程。因此,功能集的选择已显示出取决于方案或数据集。在本文中,为了模仿使用神经网络方法的人类句子合成过程,我们建议将不同类别的语言特征合并到单词的分布式表示中,以便同时学习基于未标记文本的AA的写作风格表示。特别地,所提出的模型允许将每个文档的主题,词汇,句法和字符级特征向量提取为文体。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式存储模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-13 09:15:40
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群