全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
220 0
2024-02-23
数据文档
背景描述

本数据集是一个综合性的水质分析数据集,由7999条模拟数据记录组成。

数据集包括多种化学物质的浓度测量值,如铝、氨、砷、钡、镉等,以及每种化学物质的安全阈值。
这些化学物质在实际水源中的浓度通常由多种因素决定,包括环境污染、工业排放、自然矿物质含量等。

数据集中包括一列“是否安全”分类变量,用于指示水样是否满足人类消费的安全标准。这个字段是基于各化学物质浓度与其对应安全阈值的比较得出的。

本数据为模拟数据集,但在设计上参考了实际情况,通过这个数据集,你可以探索数据预处理、特征工程、模型构建和评估等多个方面。这些探索分析结论也可以为研究水质安全与公共卫生之间关系提供有价值的参考信息。

数据说明[td]

字段

说明

aluminium铝 - 大于2.8时危险
ammonia氨 - 大于32.5时危险
arsenic砷 - 大于0.01时危险
barium钡 - 大于2时危险
cadmium镉 - 大于0.005时危险
chloramine氯胺 - 大于4时危险
chromium铬 - 大于0.1时危险
copper铜 - 大于1.3时危险
flouride氟 - 大于1.5时危险
bacteria细菌 - 大于0时危险
viruses病毒 - 大于0时危险
lead铅 - 大于0.015时危险
nitrates硝酸盐 - 大于10时危险
nitrites亚硝酸盐 - 大于1时危险
mercury汞 - 大于0.002时危险
perchlorate高氯酸盐 - 大于56时危险
radium镭 - 大于5时危险
selenium硒 - 大于0.5时危险
silver银 - 大于0.1时危险
uranium铀 - 大于0.3时危险
is_safe是否安全 - 类属性 {0 - 不安全,1 - 安全}
1.png 数据来源

https://www.kaggle.com/datasets/mssmartypants/water-quality

问题描述
2.png

预测水是否安全(二元分类问题)
使用机器学习算法(如逻辑回归、支持向量机、随机森林)来预测水是否安全。
对数据集进行训练-测试分割,使用交叉验证来评估模型性能。
分析哪些参数对水质安全性的预测最为重要。

探索化学物质含量与水质安全性之间的关联(相关性分析)
进行统计分析,如皮尔逊或斯皮尔曼相关性测试,来评估不同化学物质含量与水质是否安全之间的关联性。
使用散点图和热图来可视化这些关系。

安全与不安全水样的特性(描述性统计分析)
对安全和不安全的水样分别进行描述性统计分析,包括平均值、中位数、标准差等。
使用箱线图或小提琴图来比较不同化学物质在安全与不安全水样中的分布情况。

识别潜在的危险化学物质(异常值分析)
使用箱线图或其他可视化工具来识别各化学物质中的异常值。
分析这些异常值是否与水质不安全有关。

  • 数据格式.csv
  • 文件大小821.0 KB
  • 本数据集是一个综合性的水质分析数据集,由7999条模拟数据记录组成。
  • 3.png
waterQuality.zip
大小:(258.02 KB)

只需: RMB 19元  马上下载

本附件包括:

  • waterQuality.csv





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群