全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2165 1
2014-10-11

该数据集为歇后语语料库,包括13839条。歇后语是汉族劳动人民在生活实践中创造的一种特殊语言形式,是一种短小、风趣、形象的语句。它由前后两部分组成:前一部分起“引子”作用,像谜面,后一部分起“后衬”的作用,像谜底,十分自然贴切。在一定的语言环境中,通常说出前半截,“歇”去后半截,就可以领会和猜想出它的本意,所以就称为歇后语。汉文明源远流长。五千年历史沧桑的沉淀、淬炼、凝聚成绝妙的汉语言艺术。其中歇后语以其独特的表现力。给人以深思和启迪,千古流传。反映了汉族特有的风俗传统和民族文化,品味生活,明晓哲理,提升智慧。可应用于自然语言处理、语义理解、文本分析等。

数据格式:

    语料库={歇后语1|歇后语2|歇后语3|……}

    歇后语={引子—后衬}

数据样例:

    挨鞭子不挨棍子—吃软不吃硬|阿庆嫂倒茶—滴水不漏|阿婆留胡子—反常|阿婆的鞋—老样子|阿奶抱孙子—老手|阿拉伯数字8字分家—零比零(0:0)|阿公吃黄连—苦也(爷)|阿二炒年糕—费力不讨好;费劲不落好|阿斗的江山—白送|


附件列表

歇后语语料库13839条.rar

大小:190.26 KB

只需: 1 个论坛币  马上下载

本附件包括:

  • 623308.zip
  • README-datatang.txt
  • url.txt

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-10-15 09:39:16
这数据有意思,适合文本分析用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群