全部版块 我的主页
论坛 数据科学与人工智能 人工智能 机器学习
3844 1
2014-05-20
最近一直受一个问题困扰,咨询一下论坛内的大家,请多多指教!问题是机器学习方面的。
如果用一组类别已知的样本,其类别可能是1,...,m,训练一个分类器,然后用其识别一组样本。待识别样本中如果出现了一个不在1,...,m类中的样本,分类器能发现吗?
直观的感觉是,不能发现,因为分类器一旦训练好了,对于一个新的、待识别的样本,一定分到自己已知的类别中的一个。但是,又觉得,如果对分类器的分类过程稍加修改,就有可能发现新类别。例如,对基于朴素贝叶斯的分类器,分类过程是计算后验概率,把待识别样分到后验概率最大的一类,这里可以加上一个阈值,如果后验概率低于它,那么,将判为新类别,而不是后验概率最大的一类。
盼高人指点,这种问题有什么已有的研究,给指个思路、提供点参考文献题目也行,不胜感激!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-5-21 08:47:09
高人来了啊,呵呵呵,要给我的学术水平,热心指数,信用等级加分哦。
(1)类别问题
这是一个categorization的问题。什么叫组training?就是你已知他的类别,通过traning来获取样本的特征空间的分布。当你的training确定好之后,你的类别也就确定好了,不可以随意改动。
given一个test data,理论上来说,应该是不知道test data的类别,需要用你的classifer去做预测。但是有时为了评价分类器的好坏,所以也会认为的标注test data的类别,并与classifier预测的结果进行对比,来评价分类器的效果。

如果你明知你的test data里有一个不属于分类器中的某一个类别,你用分类器去给他分类有什么意义呢?比如你有一个中日韩语言的分类器,你用一个英文的test data,虽然最终他会被分到中日韩某一个类别里。但你的test是没有任何意义的?既不能评价分类器的好坏,也不能评价新类别的可分度。

(2)未知的类
当然,还是用上面的类别。
如果你的test的样本里的确包含一些英语,如果把英语标记成中日韩,则会导致你分类器评价有偏差,甚至错误。怎么办了?于是你可以用一个阈值,当某个样本属于中日韩的概率都极低的时候,你可以说,这是一个位置的样本。
这样你就不会把这个样本计入后面的分类器评价啦。

希望对你有帮助。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群