基于类不平衡处理的乳腺癌预后预测模型研究
目的:本文探讨不平衡分类的乳腺癌数据集基于
机器学习方法预测预后的生存状态。本研究旨在根据1845名乳腺癌患者的随访数据,建立出稳定、可靠的预测模型,以此为基础选择预测效果相对较好的预后预测模型。
对影响乳腺癌预后生存或死亡状态的因素进行探讨,选择解释性不同的模型对影响因素解释。方法:乳腺肿瘤预后的生存状态数据为不平衡数据,本文使用SMOTE、Borderline-SMOTE、AD ASYN、One-sided select处理乳腺肿瘤生存状态的不平衡数据。
对预后状态分类选用经典决策树、条件推断树、随机森林和支持向量机。评价指标采用准确率、敏感度、特异性、正例命中率、负例命中率来评价分类器的效果;对收集的乳腺癌数据集进行初步的探索性分析,针对Logistic回归模型,解释回归系数和一元优势比的估计值,给出决策树每个分支所对应的因素及对应结局发生的概率、使用随机森林方法对影响乳腺癌患者预后生存状态的影响因素进行排序。
结果:(1)针对乳腺癌患者预后数据集生存状态不平衡这一问题,欠采样方法One-Sided select技术,结合条件决策树预测,在 ...