全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1717 0
2020-10-19
数据挖掘与数据提取:有什么区别?
作为与数据科学相关的两个典型流行词,数据挖掘和数据提取使很多人感到困惑。数据挖掘经常被误解为提取和获取数据,但实际上比这要复杂得多。在本文中,让我们找出数据挖掘和数据提取之间的区别。
目录
什么是数据挖掘?
数据挖掘可以做什么?
数据挖掘的一些用例
数据挖掘的总体步骤
数据挖掘的缺点
什么是数据提取?
数据提取可以做什么?
数据提取的一些用例
数据提取的总体步骤
数据提取的缺点
数据挖掘和数据提取之间的主要区别
结论-数据挖掘与数据提取
数据挖掘VS数据提取有什么区别
什么是数据挖掘?
数据挖掘,也称为 数据库知识发现(KDD),是一种通常用于通过统计和数学方法分析大型数据集以发现隐藏模式或趋势并从中获取价值的技术。
数据挖掘可以做什么?
通过使挖掘过程自动化, 数据挖掘工具 可以遍历数据库并有效地识别隐藏模式。对于企业而言,数据挖掘通常用于发现数据中的模式和关系,以帮助做出最佳的业务决策。
数据挖掘的一些用例
在1990年代数据挖掘广泛使用之后,包括零售,金融,医疗保健,运输,电信,电子商务等在内的各行各业的公司开始使用数据挖掘技术从数据中产生见解。数据挖掘可以帮助细分客户,发现欺诈行为,预测销售量等等。数据挖掘的特定用途包括:
客户细分
通过挖掘客户数据并确定目标客户的特征,公司可以将其划分为不同的组,并提供满足其需求的特殊优惠。
市场篮分析
这是一项基于以下理论的技术:如果您购买特定组的产品,则很可能会购买另一组产品。一个著名的例子是,当父亲为婴儿购买尿布时,他们往往会与尿布一起购买啤酒。
预测销售
这听起来可能类似于市场分析,但是这次数据挖掘用于预测客户将来何时再次购买产品。例如,一位教练购买了一桶蛋白粉,应持续9个月。出售蛋白质粉的商店计划在9个月后发布新的蛋白质粉,以便教练再次购买。
检测欺诈
数据挖掘有助于建立模型以检测欺诈。通过收集欺诈性报告和非欺诈性报告的样本,企业可以确定哪些交易可疑。
发现制造模式
在制造业中,数据挖掘用于发现产品架构,产品组合和客户需求之间的关系,从而帮助设计系统。它还可以预测未来产品开发的时间跨度和成本。
以上只是一些使用数据挖掘的方案。有关更多用例,请查看 数据挖掘应用程序和用例。
数据挖掘的总体步骤
数据挖掘是收集,选择,清理,转换和挖掘数据的完整过程,以便评估模式并最终交付价值。
数据挖掘步骤
(来源)
通常,数据挖掘过程可以概括为7个步骤:
步骤1:资料清理
在现实世界中,数据并不总是被清理和组织。它通常是嘈杂的,不完整的,并且可能包含错误。为了确保数据挖掘结果的准确性,首先需要清理数据。一些清洁技术包括填写缺失值,自动和手动检查等。
步骤2:资料整合
这是从不同来源提取,合并和集成数据的步骤。这些来源可以是数据库,文本文件,电子表格,文档,数据立方体,Internet等。
第三步:数据选择
通常,数据挖掘并不需要集成所有数据。数据选择是仅从大型数据库中选择和检索有用数据的地方。
步骤4:数据转换
选择数据后,将其转换为合适的形式以进行挖掘。此过程涉及规范化,聚合,泛化等。
第5步:数据挖掘
这是数据挖掘中最重要的部分-使用智能方法来查找数据模式。数据挖掘过程包括回归,分类,预测,聚类,关联学习等等。
步骤6:模式评估
此步骤旨在确定潜在有用且易于理解的模式,以及验证假设的模式。
步骤7:知识表示
在最后一步中,以吸引人的方式将挖掘的信息与知识表示和可视化技术一起呈现。
数据挖掘的缺点
尽管数据挖掘很有用,但它有一些局限性。
在时间和劳动力上的大量投资
由于这是一个漫长而复杂的过程,因此需要高性能和熟练技术人员的大量工作。数据挖掘专家可以利用强大的数据挖掘工具,但需要专家准备数据并理解输出。结果,可能仍需要一些时间来处理所有信息。
隐私和数据安全问题
由于数据挖掘使用基于市场的技术来收集客户的信息,因此可能会侵犯用户的隐私。而且,黑客可能会入侵存储在采矿系统中的数据,这对客户数据安全构成了威胁。如果盗用的数据被滥用,很容易损害他人。
以上是数据挖掘的简要介绍。正如我已经提到的,数据挖掘包含数据收集和数据集成的过程,其中包括数据提取的过程。在这种情况下,可以肯定地说数据提取可能是长期数据挖掘过程的一部分。
什么是数据提取?
数据提取也称为“ Web数据提取”和“ Web抓取”,是将数据(通常是非结构化或结构化不良)数据源检索到集中位置进行存储或进一步处理的操作。
具体来说,非结构化数据源包括网页,电子邮件,文档,PDF,扫描的文本,大型机报告,假脱机文件,分类等。集中位置可以是现场的,基于云的或两者的混合。重要的是要记住,数据提取不包括以后可能进行的处理或分析。
数据提取可以做什么?
通常,数据提取的目标分为三类。
档案
数据提取可以将数据从物理格式(例如书籍,报纸,发票)转换为数字格式(例如数据库)以进行保管或作为备份。
传输数据格式
如果要将数据从当前网站转移到正在开发的新网站中,则可以通过提取来从自己的网站中收集数据。
数据分析
作为最常见的目标,可以对提取的数据进行进一步分析以产生洞察力。这听起来可能类似于数据挖掘中的数据分析过程,但是请注意,数据分析是数据提取的目标,而不是其过程的一部分。此外,对数据的分析也有所不同。一个例子是,电子商店所有者 从亚马逊等电子商务网站提取产品详细信息, 以实时监控竞争对手的策略。
就像数据挖掘一样,数据提取是一个自动过程,具有很多好处。过去,人们习惯于将数据从一个地方手动复制和粘贴到另一个地方以移动数据,这非常耗时。数据提取加快了收集速度,并大大提高了提取数据的准确性。有关数据提取的其他优点,您可以查看 本文。
数据提取的一些用例
与数据挖掘类似,数据提取已广泛用于服务于不同目的的多个行业。除了监控电子商务中的价格外,数据提取还可以帮助进行个人论文研究,新闻汇总,市场营销,房地产,旅行和旅游,咨询,金融等。
领先一代
公司可以从Yelp,Crunchbase,Yellowpages等目录中提取数据,并为业务发展产生潜在客户。您可以观看此视频,了解如何使用网络抓取模板从黄页提取数据 。
内容和新闻汇总
内容聚合 网站可以从多个来源获取常规数据供稿,并保持其网站的最新状态。
情绪分析
从Instagram和Twitter等社交媒体网站提取在线评论/评论/反馈后,人们可以分析其潜在态度,并了解他们如何感知品牌,产品或现象。
有关数据提取的更多应用程序和用例,请参阅《  25种利用Web数据提取发展业务的技巧》。
数据提取的总体步骤
数据提取是ETL(提取,转换和加载)和ELT(提取,加载和转换)的第一步。ETL和ELT本身就是完整数据集成策略的一部分。换句话说,数据提取可以是数据挖掘的一部分。  
提取变换负载
(来源)
数据挖掘的全部目的是从大型数据集中获取可行的见解,而数据提取则是一个短而直接的过程。数据提取过程可以概括为三个步骤。
步骤1:选择数据源
选择您要提取的目标数据源,例如网站。
步骤2:资料收集
向网站发送“ GET”查询,并使用Python,PHP,R,Ruby等编程语言解析HTML文档。
步骤3:资料储存
将数据存储在您的现场数据库或基于 云的目标中, 以备将来使用。
如果您是一位经验丰富的程序员想要提取数据,那么上面的步骤对您来说可能听起来很容易。但是,如果您是非编码人员,则有一条捷径-使用 数据提取工具( 如 Octoparse)。数据提取工具与数据挖掘工具一样,旨在节省人们的精力并简化每个人的数据处理。这些工具不仅具有成本效益,而且对初学者友好。它们使用户可以在几分钟之内抓取数据,将其存储在云中并通过API将其导出为多种格式,例如Excel,CSV,HTML,JSON或现场数据库。
数据提取的缺点
服务器故障
大规模提取数据时,目标网站的Web服务器可能会超负荷运行,这可能导致服务器崩溃,从而损害站点所有者的利益。
禁止IP
当人们过于频繁地爬网数据时,网站可能会阻止其IP地址。它可能会完全禁止IP或限制搜寻器的访问以破坏提取。为了 提取数据而不会被阻塞,人们需要以中等速度提取数据并采用一些反阻塞方法。
法律问题
Web数据提取在合法性方面处于灰色区域 。像Linkedin和Facebook这样的大型网站在其服务条款中均明确指出,不允许自动提取数据。公司之间在抓取漫游器活动方面存在许多诉讼。
数据挖掘和数据提取之间的主要区别
数据挖掘也被称为数据库中的知识发现,知识提取,数据/模式分析,信息收集。数据提取可与Web数据提取,Web抓取,Web爬行,数据检索,数据收集等互换使用 。
数据挖掘研究主要针对结构化数据,而数据提取通常从非结构化或结构不良的数据源中检索数据。
数据挖掘的目的是使可用数据对生成见解更加有用。数据提取是指收集数据并将其收集到可以存储或进一步处理的地方。  
数据挖掘基于数学方法来揭示模式或趋势。数据提取基于编程语言或数据提取工具来爬网数据源。
数据挖掘的目的是查找以前未知或忽略的事实,而数据提取则处理现有信息。
数据挖掘要复杂得多,需要在员工培训上进行大量投资。如果使用正确的工具进行数据提取,将非常容易且具有成本效益。
结论-数据挖掘与数据提取
这些术语已经存在了大约二十年。数据提取可以是数据挖掘的一部分,其目的是收集和集成来自不同来源的数据。数据挖掘是一个相对复杂的过程,它伴随着发现模式来理解数据并预测未来。两者都需要不同的技能和专业知识,但是非编码数据提取工具和数据挖掘工具的日益普及极大地提高了生产力,并使人们的生活变得更加轻松。  

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群