全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 真实世界经济学(含财经时事)
320 0
2025-11-20

什么是数据清洗?

想象一下你在菜市场买了一筐西红柿,里面可能混杂着:

  • 烂叶子(缺失值)
  • 烂番茄(异常值)
  • 贴了两层标签(重复数据)
  • 有的写“番茄”,有的写“西红柿”(单位/格式不统一)

数据清洗就像把这些坏的挑出去,把好的洗干净,再切成一样大小的块,方便下锅。

什么是脏数据?常见类型有哪些?

场景 脏数据示例 后果
缺失值 年龄:空、999、-1 平均年龄算出来 188 岁,不合常理
重复值 张三买了 3 次会员,订单号一模一样 营收虚高 2 倍,容易导致误判
单位不统一 有的“元”,有的“万元” 可视化视图分析错误,坐标轴长度显示错误
异常值 身高 3.5 米、体重 0.5 千克 机器学习模型直接“怀疑人生”

数据清洗的“三步曲”——像洗菜一样简单

  1. 挑拣(Remove)
    • 烂番茄:删除整行
    • 烂叶子:缺失太多直接整列扔掉
    • 工具:Excel 筛选、Python、Power Query“删除空值”
    dropna()
  2. 修剪(Replace)
    • 标签统一:西红柿 = 番茄
    • 单位统一:全部换算成“元”
    • 异常值:身高 3.5 米 → 空值,等人工核实
    • 工具:Excel、Python、PQ“替换值”
    SUBSTITUTE()
    replace()
  3. 装盘(Reformat)
    • 日期格式:2025/1/1、2025-01-01、01-Jan-2025 → 统一 2025-01-01
    • 字符串/数字:把“1.2万”变成 12000
    • 工具:PQ“更改类型”一键搞定,Python
    pd.to_datetime()

上手实践!3 个“秒学会”的清洗小技能

  1. 技能 1:Excel 1 分钟去重

    选中数据 → 数据 → 删除重复值 → 搞定!

  2. 技能 2:Power Query 一键补空

    转换数据 → 右键列 → 填充 → 向下填充(空值自动补上面的值)

  3. 技能 3:Python 3 行代码

    运行完,脏数据变净数据,文件直接生成。

    import pandas as pd
    df = pd.read_csv('dirty.csv')
    df_clean = df.dropna().drop_duplicates()
    df_clean.to_csv('clean.csv', index=False)

清洗完成后有什么用?

环节 没清洗 清洗后
报表 柱状图负数柱子往下长 坐标轴正常,清晰直观
机器学习 模型准确率 45% 准确率 92%,提高准确性
风控 把“3.5 米”当真,拒贷正常客户 异常值剔除,坏账率降 30%
运营 重复会员发 3 次券,血亏 精准触达,ROI 翻 2 倍

一张图记住全流程

常见疑问,一句话回答

Q:清洗到什么程度算完?
A:能让“计算机”和“人类”都看懂就行,别追求 100% 完美,80% 干净就够下锅。
Q:谁来洗?必须会代码吗?
A:Excel/Power Query 足够应付 90% 场景;数据量>10 万行或要自动化,再学 Python。
Q:洗错了怎么办?
A:清洗前一定备份原始文件,命名
xxx_raw.csv
,留条后路。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群