数据挖掘在生产过程中的应用

1064

收藏 2022-04-24

英文标题：
《The Application of Data Mining in the Production Processes》
---
作者：
Hamza Saad
---
最新提交年份：
2020
---
分类信息：

一级分类：Economics 经济学
二级分类：General Economics 一般经济学
分类描述：General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类：Computer Science 计算机科学
二级分类：Machine Learning 机器学习
分类描述：Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文（有监督的，无监督的，强化学习，强盗问题，等等），包括健壮性，解释性，公平性和方法论。对于机器学习方法的应用，CS.LG也是一个合适的主要类别。
--
一级分类：Quantitative Finance 数量金融学
二级分类：Economics 经济学
分类描述：q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学，包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
英文摘要：
Traditional statistical and measurements are unable to solve all industrial data in the right way and appropriate time. Open markets mean the customers are increased, and production must increase to provide all customer requirements. Nowadays, large data generated daily from different production processes and traditional statistical or limited measurements are not enough to handle all daily data. Improve production and quality need to analyze data and extract the important information about the process how to improve. Data mining applied successfully in the industrial processes and some algorithms such as mining association rules, and decision tree recorded high professional results in different industrial and production fields. The study applied seven algorithms to analyze production data and extract the best result and algorithm in the industry field. KNN, Tree, SVM, Random Forests, ANN, Na\\\"ive Bayes, and AdaBoost applied to classify data based on three attributes without neglect any variables whether this variable is numerical or categorical. The best results of accuracy and area under the curve (ROC) obtained from Decision tree and its ensemble algorithms (Random Forest and AdaBoost). Thus, a decision tree is an appropriate algorithm to handle manufacturing and production data especially this algorithm can handle numerical and categorical data.
---
PDF下载：
-->

The_Application_of_Data_Mining_in_the_Production_Processes.pdf
大小:(1.89 MB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

mingdashike22

2022-4-24 15:25:21

工业工程2018；2(1): 26-33http://www.sciencepublishinggroup.com/j/iedoi:10.11648/j.ie.20180201.14数据挖掘在生产过程系统科学和工业工程中的应用，宾厄姆顿大学，纽约，USAHamza Saad。数据挖掘在生产过程中的应用。工业工程。2018年第2卷第1期，第26-33页。doi:10.11648/j.ie.20180201.14收到日期：2018年9月16日；接受日期：2018年9月28日；发布日期：2018年10月30日传统的统计和测量无法以正确的方式和适当的时间解决所有工业数据。开放的市场意味着客户增加，生产必须增加以满足客户的所有要求。如今，每天从不同的生产过程和传统的统计或有限的测量中产生的大量数据不足以处理所有的日常数据。提高产量和质量需要分析数据，并提取有关流程如何改进的重要信息。数据挖掘在工业过程中得到了成功的应用，关联规则、决策树等算法在不同的工业和生产领域都取得了很好的专业效果。本研究应用了七种算法来分析生产数据，并提取出工业领域的最佳结果和算法。KNN、Tree、SVM、Random Forests、ANN、Na"ive Bayes和AdaBoost应用于基于三个属性的数据分类，而不忽略任何变量，无论该变量是数值变量还是分类变量。从决策树及其集成算法（随机森林和AdaBoost）中获得的精度和曲线下面积（ROC）的最佳结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 15:25:27

因此，决策树是处理制造和生产数据的合适算法，尤其是该算法可以处理数字和分类数据。数据挖掘算法，分类，工业数据，精确度，ROC曲线1。在制造业和工业过程中，每天都会产生大量数据，然而传统的测量和分析不足以处理大量数据。问题来自复杂性、非线性和不一致性。随着现代组织中数据库的快速增长，数据挖掘成为一种越来越有价值的数据分析方法。数据库和统计分析的应用在工程中得到了很好的应用[2]。20世纪80年代末，人工智能首次应用于制造业[3-4]。记录公司所有流程的数据，如产品设计、材料控制、计划、调度、装配、回收、维护。这些数据被存储，因此作为新知识的来源提供了巨大的潜力。利用收集到的数据已成为一个问题，而数据挖掘是将这些数据转化为知识的典型和最佳解决方案。数据挖掘过程在制造业中的应用始于20世纪90年代[5-7]，并逐渐受到生产界的关注。目前，数据挖掘应用于生产和制造工程的不同领域，以提取知识，应用于预测维护、设计、故障检测、质量控制、生产和决策支持系统。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-4-24 15:25:34

通过数据挖掘对数据进行分析，以识别控制制造过程的变量中隐藏的模式，或定义和提高产品质量。数据挖掘的一个重要优点是，分析所需的数据可以在所研究的制造过程的正常过程和操作中收集，因此通常不需要引入数据收集的专用过程。制造业的数据挖掘在过去几年中有所增加；目前适合对其应用进行批判性审查[10]。由于制造业的复杂性，数据挖掘提供了许多算法来处理复杂的数据。2018年印度工程学会；2（1）：26-2733算法具有处理分类或数值数据的特殊能力。在本研究中，许多数据挖掘算法应用于基于三个属性的数据分类。在工业和制造过程中，关联规则和决策树用于从大数据中提取知识。然而，关联规则只能处理类别数据。决策树和基于集成学习的决策树记录了复杂的输出[1]，无论依赖变量是数字变量还是分类变量。本研究中的数据挖掘算法用于分析[1]中最初从工业进展报告中获得的数据，并找出能够处理分类和性能最高的工业数据的最佳算法。2.方法论（数据挖掘算法概述）所有解释的数据挖掘算法都将用于分析生产过程中的实际问题。2.1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-4-24 15:25:39

朴素贝叶斯（naivebayes）朴素贝叶斯（naivebayes）分类器是根据贝叶斯定理，在变量之间具有独立性假设而生成的。朴素的贝叶斯分类器易于构建，没有问题的迭代参数估计，这使得它适用于大型工业数据集。尽管它很简单，但该算法通常表现得出奇地好，并且得到了广泛的应用，因为它的性能往往优于perfectclassification方法。方程（1）中的贝叶斯定理提供了一种从P（c）、P（x）和P（x | c）计算后验概率P（c | x）的技术。它假设预测器（x）对agiven类（c）的影响独立于其他输入变量的值。这种假设被称为conditionalindependence类。P（c/x）=(/)*()()（1） P（c/x）是类（依赖）给定预测（变量）的后验概率。P（x/c）是一种可能性，它是给定类别的概率。P（c）是类的先验概率。P（x）是预测因子的先验概率[9]。2.2。决策树算法（C4.5）决策树以树的形式进行回归和分类模型。它将数据集分解为更小的子集，同时关联的决策树也逐渐发展[11]。最终的结果是一棵包含叶节点和决策节点的树。决策节点（例如，机器）有两个或多个分支（例如，旧的、阴的和新的）。叶节点（例如，平均值）代表决策。树的根节点位于树中与最佳预测器相对应的最顶层决策节点。决策树可以处理数字和分类数据。J.R.提出的ID3决策树生成算法的基础。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-4-24 15:25:46

Quinlan通过nobacktracking在可能的空间分支中进行自上而下的贪婪搜索。ID3应用信息增益和熵来构建决策树。2.3. K-最近邻算法（KNN）是一种简单的算法，它存储所有可用案例，并根据相似性度量（例如距离函数）对新案例进行分类。20世纪70年代初，K-最近邻作为一种非参数技术被用于模式识别和统计建模[9]。欧几里得的∑ (-)（2）曼哈顿∑ |-|（3）明可夫斯基∑ (|-|) /（4）三个距离测量函数仅适用于连续数据。在分类实例变量中，必须使用等式（5）中的汉明距离，而不是距离函数。当数据集中的数值变量和分类变量混合时，数值变量的标准化介于0和1之间。汉明距离=|-| = => = 0 ≠ => = 1（5）选择K的最佳值最好先检查数据。一般来说，较大的K值更精确，因为它可以降低总体噪声，但没有保证。交叉验证是另一种通过使用独立数据集验证K值来回顾性确定好K值的方法。历史上，大多数数据集的最佳K值在3-10之间。这会产生比1NN更好的结果。2.4. 人工神经网络算法（ANN）人工神经网络（ANN）是一个基于生物神经网络的系统，就像大脑一样。ANNis由人工神经元网络（称为“节点”）组成。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

kedemingshi

2022-4-24 15:25:54

这些节点在网络形状中相互连接，并与另一个节点连接的强度28 Hamza Saad：数据挖掘在生产过程中的应用，根据强度赋值：抑制（最大值为-1和0）或激发（最大值为+1和0）。如果连接值较高，则表明存在强连接。在节点的每个设计中，都会计算传递函数。人工神经网络中的三种神经元是输入节点、隐藏节点和输出节点。信息中的输入节点，其形式可以用数字表示。这些信息显示了激活值，每个节点都给出一个数字，数字越高表示激活量越大。然后，这些信息在整个网络中传递。基于连接权重（强度）、传递函数和激励或抑制，激活值通过节点传递到节点。每个节点将其接收到的激活值相加；然后根据其传递函数修改该值。激活通过网络，通过隐藏层，直到它触及输出节点。然后，输出节点以有意义的方式向外部世界反映输入[Saad\'s Dissertation 2018]。支持向量机算法（SVM）支持向量机（SVM）通过寻找最大化两个类之间边缘的超平面来进行分类。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-4-24 15:26:00

定义超平面的向量（案例）是支持向量[11]。算法定义了一个最优超平面：最大化边缘。将上述定义扩展到非线性可分离问题：为错误分类设置惩罚项。将数据映射到高维空间，在高维空间中更容易使用线性决策曲面进行分类：重新构造问题，以便将数据隐式映射到该空间。为了定义最佳超平面，我们需要最大化边距的宽度（w）。SVM使用方程（6-8），并根据需要求解的数据类型[9]。线性支持向量机.&（6）非线性支持向量机(). （7）核函数k（x_ui）。x_j（8）2.6。AdaBoost算法AdaBoost（Adaptive boosting的缩写）小部件是一种机器学习算法，由（Yoav Freund）和（Robert Schapire）制定。它可以与其他学习算法一起使用，以提高其性能。它通过调整学习能力较弱的学生来实现这一点。集成元算法结合了弱学习者并适应每个训练样本的“硬度”。它适用于分类和回归。2.7. 随机森林树算法是一种用于回归和分类的集成学习技术。它最早由（田锦浩）发明，然后由（布雷曼，2001）开发。该算法根据用户的请求建立多个决策树。引导样本用于根据训练数据开发每个树。当开发一棵树时，将执行属性的任意子集，从中投票选出分割的最佳属性。最后的结果将用于计算。如果因变量是数字，那么最终结果将基于所有结果的平均值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 15:26:06

如果依赖变量是分类变量，那么最终结果是基于森林中单独开发的树木的多数票。它只适用于回归和分类任务。一些算法可以处理分类数据和数字数据，而其他算法只能处理分类数据，比如天真的贝叶斯。本研究的数据包括分类变量和数值变量，以测试每个算法处理和分析数据的能力。3.数据挖掘算法在解决生产问题中的应用[1]对数据进行了应用和充分解释。数据包括12个输入变量（徽章号、职称、基本产量、实现的产量、激励工资、生产率、工人效率、机器型号、产品类型、延迟时间和生产单位），一个输出变量是（最终绩效评估），数据集中的每个变量有121个实例。它是根据每个班次的最终工资从工人的日常绩效衡量中收集的。用于根据最终性能评估结果对数据库进行分类的算法。本研究中的所有算法都具有分类和回归的能力，但在分类模型中修改了数据，因为我们需要衡量同一解决方案应用中所有算法的能力（包括属于分类的朴素贝叶斯），并将每个算法与本研究中的其他算法进行比较。在图1中，Orange软件用于分析数据，因为该软件对结果有完美的呈现和解释。工业工程2018；2（1）：26-33 29图1。使用orange软件应用不同的数据算法。3.1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-4-24 15:26:12

结果和讨论在分类精度方面，Adaboost和决策树的分类精度最高，其次是随机森林和Na"iveBayes。在之前的研究[8]中，关联规则和决策树在工业领域进行了测试，他们证实了这些算法适用于处理制造数据。然而，关联规则不能处理数值数据或以回归类型进行求解，尤其是从行业收集的大量日常数据是数值的。决策树及其集成学习算法，如随机森林和AdaBoost（Boost tree）可以高效地处理和分析回归或分类中的数据。在表中，决策树及其集成算法（AdaBoost和Random Forests）的分类精度最高，而Na"ive Bayes的分类精度为0.826。K近邻（KNN）的分类准确率最低。因此，我们可以支持决策树决策作为处理非线性和制造数据的最佳算法。表1。概述了应用七种数据挖掘算法获得的结果。算法AUC（ROC曲线下面积）CA（分类精度）F1精度RecallKNN 0.668 0.636 0.662 0.652 0.672树0.879 0.868 0.873 0.887 0.859SVM 0.721 0.769 0.800 0.737 0.875随机森林0.932 0.860 0.870 0.851 0.891 ANN 0.788 0.702 0.727 0.706 0.7500.750天真贝叶斯0.908 0.826 0.821 0.906 0.870.875表。每个数据挖掘算法的性能。3.2. 从每个算法获得的混淆矩阵在数据集的输出变量中，有三个属性或类（平均、良好和优秀），混淆矩阵可以解释算法如何基于每个属性工作。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-4-24 15:26:18

（平均实例），该属性使用树进行高度分类，27个实例中有22个是Na"ive Bayes，27个实例中有15个是supportvector machine的最低分类。（很好的例子），使用AdaBoost对属性进行了高度分类，30个实例中有27个，最低分类来自KNearest邻居（KNN），30个实例中有11个。（Goodinstance），使用支持向量机（SVM）和AdaBoost对该属性进行高度分类，64个实例中有56个实例，最低分类来自K最近邻（KNN），46个实例中有43个实例。图2.30 Hamza Saad：数据挖掘在生产过程中的应用图2给出了混淆矩阵。七种算法的混淆矩阵。3.3. 接收器工作特性接收器工作特性从0缩放到1，0表示预测不良，1表示预测较高。Sevencolors Azura、勃艮第、祖母绿、铜、梨、蓝紫色和淡蓝色分别与树木、神经网络、随机森林、KNN、AdaBoost、SVM和天真贝叶斯区分开来。在X轴上有FP率（1特异性），在Y轴上有TP率（敏感性）。图3显示了数据集中使用每个appliedalgorithm输出的三个实例的接收器工作特性（ROC）。工业工程2018；2（1）：26-33 3132 Hamza Saad：数据挖掘在生产过程中的应用图3。每个属性的接收器操作特征（ROC曲线）随机森林算法给出的曲线下的最高面积达到（0.932），然后朴素贝叶斯得到曲线下的（0.908）面积。KNN（K近邻）记录了所有算法中曲线下的最小面积，达到（0.668）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-4-24 15:26:24

决策树及其集成算法记录了原始贝叶斯旁边曲线下的最佳区域。4.结论传统的分析和测量不能处理日常数据，尤其是大数据。如今，数据挖掘已经不能有效地处理所有的日常数据，无论这些数据是小数据还是大数据。在工业上，关联规则成功地用于发现分类变量之间的关系，但该算法无法处理数值数据。本研究采用偶数算法对包含分类和数值输入变量的数据集进行分析，以选择能够处理数值和分类数据的最佳算法。决策树及其集成算法（随机森林和AdaBoost）在准确度分类和曲线下面积（ROC）方面记录了最佳的准确度和高性能。因此随机森林、AdaBoost和决策树适用于工业和制造业数据。此外，Na"ive Bayes给出了高精度分类和曲线下面积（ROC），但该算法无法将数值数据作为决策树及其集成算法处理（随机森林和AdaBoostReferences[1]Saad HR（2018），“使用Bagging算法提高生产公司员工绩效评估的预测准确性”。工业7:257。内政部：10.4172/2169-0316.1000257。[2] Han，J.和Kamber，M.，2001，“数据挖掘：概念和技术，摩根·考夫曼”，纽约，550页[3]Malkoff，D.B.（1987），“使用时态数据进行实时故障检测和诊断的框架”，Artiff。因特尔。《工程》第22卷，第97-111页。[4] Ramamoorthy，C.V.和Wah，B.W.（1989），“知识与数据工程”，IEEE Trans。诺尔。《数据工程》，第11期，第9-16页。[5] 李，M。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 15:26:30

H.，（1993），“基于知识的工厂”，人工制品。因特尔。《工程》第8卷，第109-125页。[6] Irani，K.B.，Cheng，J.，Fayyad，U.M.，和钱，Z.（1993），“将机器学习应用于半导体制造”，IEEE专家，81，第41-47页。[7] Piatetsky Shapiro，G.（1999），“数据挖掘行业的时代变革”，IEEE Intell。系统。，146，第32-34页。[8] Foguem、Rigal和Mauget（2013）。采矿协会规则用于提高生产过程的质量。专家系统与应用杂志。工业工程2018；2（1）：26-33[9]赛义德·萨亚德（2010-2018）“数据科学导论”。版权所有(c)2010-2018，Saed Sayad博士。[10] J.A.Harding，M.Shahbaz，Srinivas，A.Kusiak（2006）《制造业中的数据挖掘：综述》。制造科学和工程杂志。内政部：10.1115/1.2194554。[11] H Saad and N Nagarur（2017），“利比亚乳腺癌早期检测和临床分期的数据分析”。工业与系统工程学会第六届年度世界会议。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群