无监督学习及其在知识发现过程中的作用
与有监督的学习不同,无监督的学习不适用于带标签的数据,它不能向机器显示正确的答案。相反,它使用不同的算法让计算机通过研究和观察数据来创建连接。通过学习和观察可以学到很多。通过反复试验来学习和改进是无监督学习的关键。
但是,知识发现过程是
数据挖掘的领域,它与方法,技术和算法的发展有关,这些方法,技术和算法可以使可用数据有意义。这对于在数据库中查找趋势,模式,相关性和异常情况很有用,这有助于为将来做出准确的决策。
知识发现包括以下步骤的迭代序列:
了解您的目标或领域并创建数据集并选择它
清理选定的数据集并转换为适当的形式进行挖掘
将智能方法应用于转换后的数据集以提取数据模式
当获得模式评估时,进行解释和可视化以识别代表知识的模式。
最后,完成知识展示以向用户展示知识并管理发现的知识
无监督学习是知识发现过程的核心技术之一,因为它与没有老师的学习(没有任何标签数据)和对输入的概率密度进行建模相关。可以使用监督学习来预测某个结果。但是,如果我们尝试无监督学习,则更有可能找到新的东西。它可能是研究和观察数百万个不同数据点的机器,并且该机器创建了自己的集群。无监督学习的关键之一是访问大量数据。您拥有的数据越多,机器就越容易观察和研究可能导致有价值的集群的趋势。
最常见的无监督学习方法是聚类分析,它用于探索性数据分析以发现隐藏的模式或数据分组。将聚类算法应用于具有相似属性的相似组进行
数据分析,这些相似组称为聚类。因此,群集是对象之间的相似对象的集合,这些对象与属于其他群集的对象不同。借助聚类,我们可以确定一组未标记数据中的固有分组。常见的聚类算法包括:
分层集群:通过创建集群树来构建集群的多层层次结构
k均值聚类:根据到聚类中心的距离将数据划分为k个不同的聚类
高斯混合模型:将聚类建模为多元正态密度分量的混合
自组织地图使用
神经网络来学习数据的拓扑和分布
隐马尔可夫模型使用观察到的数据恢复状态序列

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!