图书链接
Veridical Data Science(真实可信数据科学)是一套确保数据科学结果真实、可靠、可解释、可复现的原则和方法体系。
它由加州大学伯克利分校的统计学家 Bin Yu(余彬)教授提出,核心思想是:
为了做到这一点,VDS 提出了一个核心框架:PCS
• P: Predictability(可预测性)
模型必须在新数据上表现良好,而不是只在训练集上好看。
• C: Computability(可计算性)
结果必须能被稳定、可重复地计算出来,算法要可实现、可复现。
• S: Stability(稳定性)
结论不能因为数据的微小扰动、模型选择的微小变化而大幅波动。
为什么 Veridical Data Science 在工业界非常重要
工业界的数据科学项目往往面临以下问题:
• 数据噪声大、不完整
• 模型复杂、难解释
• 结果不稳定、难复现
• 业务方需要可信的结论,而不是“黑箱预测”
• 模型上线后需要长期稳定运行
VDS 正是为了解决这些现实痛点。
VDS 强调:
• 模型不仅要预测准
• 还要能解释“为什么”
在工业界:
• 金融风控需要解释
• 医疗模型需要解释
• 法律合规需要解释
• 业务团队需要解释