全部版块 我的主页
论坛 数据科学与人工智能 人工智能
618 0
2025-11-24

towardsdatascience.com/could-conversational-ai-driven-data-analytics-finally-solve-the-data-democratization-riddle-989ceec7f1e1?source=collection_archive---------11-----------------------#2024-10-01

艺术作品由 Galen Okazaki 使用 Midjourney 创作

数据领导者的现实评估

作者:Galen Okazaki · 发表于 Towards Data Science · 阅读时长:7 分钟 · 2024 年 10 月 1 日

开场场景:未来感办公室中的高管

一间宽敞、现代的办公室,落地窗映出城市繁忙的天际线。室内设计极简而优雅,配有流畅线条的家具和几幅精心挑选的艺术品。

一位四十多岁的女性高管正专注地盯着电脑屏幕。她轻声说道:“请显示上个月的收入。” 屏幕更新后,她面无表情地继续追问:“按销售区域划分收入。” 接着,她皱起眉头:“再按区域展示净利润率。” 在长时间凝视图表后,她缓缓叹了口气,伸手拿起了手机……

数据民主化的挑战与愿景

所谓“数据民主化”,指的是让组织内所有成员——无论技术背景如何——都能轻松访问并理解数据的过程。这一理念已存在多年,像我这样的传统派(深受拉尔夫·金博尔思想影响)一直在努力推动其实现。

从早期构建用户友好的数据仓库模型,到如今层出不穷的商业智能工具,我们在降低使用门槛方面取得了显著进展。然而,现实是:真正能从数据中挖掘新洞察的,仍主要是数据分析师、数据科学家和业务分析师。

对于大多数非技术人员而言,围绕数据的技术壁垒——无论是真实的技能限制,还是心理上的畏惧感——依然难以跨越。

一线希望:自然语言接口的出现

转折点出现在2022年11月底,OpenAI推出了ChatGPT。这款工具允许普通用户通过输入自然语言提示(prompt),直接与大型语言模型(LLM)交互。这些模型基于海量互联网数据训练而成,能够以对话形式回答问题、生成内容。

更重要的是,它把强大的数据处理能力交到了每一个有权限使用者的手中。这一变化迅速引发了数据分析从业者的广泛讨论:这项技术将如何重塑我们的工作方式?

迈向自动化分析:Code Interpreter 的诞生

仅仅四个月后,OpenAI发布了名为 Code Interpreter 的 ChatGPT 插件 alpha 版本。这个功能允许用户上传数据集,输入简单的文字指令,即可让系统自动调用 Python 进行回归分析、描述性统计,甚至生成可视化图表——全程无需编写任何代码。

这标志着一种全新范式的开启:**以对话驱动的数据分析**。人们第一次看到,仅靠提问就能完成复杂的数据操作。

[此处为图片2]

艺术作品由 Galen Okazaki 使用 Midjourney 创作

生成型 AI 会取代数据分析师的需求吗?
Galen Okazaki 为《Towards Data Science》撰写

角色替代的担忧与反思

随着ChatGPT展现出编写SQL、R、Python等代码的能力,并结合Code Interpreter的功能,许多人开始预测:数据分析师的职业终将被AI取代。

这种观点在当时颇具影响力。毕竟,设想一下:公司里技术最薄弱的员工,只需打字或语音提问,就能获得深度数据洞察——这听起来确实令人震撼。

但我当时并不认同这一结论,甚至专门撰文反驳。我认为,尽管AI极大提升了效率,但真正的数据分析远不止执行命令,更涉及业务理解、逻辑推理、上下文判断和沟通协作。

当前进展:期望与现实之间的差距

距离Code Interpreter首次发布已过去一年半,我们是否已经全面进入“对话式AI主导数据分析”的时代?答案可能令人失望——进展比预期缓慢得多。

例如,在2023年7月,该插件被正式更名为“高级数据分析”功能,作为ChatGPT Plus的一项核心服务推出。虽然能力有所增强,但在实际企业环境中,其稳定性、安全性、可审计性和集成能力仍然有限。

多数企业在尝试后发现,这类工具更适合探索性分析或辅助任务,尚无法完全替代专业人员进行关键决策支持。

结语:技术赋能,而非替代

对话式AI无疑正在改变数据工作的面貌。它降低了入门门槛,让更多人可以参与数据对话,推动了真正的数据民主化进程。

然而,它并非万能钥匙。要弥合数据与使用者之间的鸿沟,除了技术工具,还需要文化变革、培训体系和清晰的数据治理策略。

未来的理想状态不是“AI取代人类”,而是“人类借助AI”实现更高层次的洞察力与决策质量。

重新发布。Code Interpreter 不仅更改了名称,而且……嗯……呃……至少新名字更准确地反映了它的实际功能。

客观来说,代码解释器或称为高级数据分析功能,确实是一个实用的工具。然而,它从一开始就没有被设计成适用于整个企业的分析解决方案。其局限性在于只能处理用户手动上传的静态文件,无法直接连接到数据库系统。

towardsdatascience.com/could-conversational-ai-driven-data-analytics-finally-solve-the-data-democratization-riddle-989ceec7f1e1?source=collection_archive---------11-----------------------#2024-10-01

为了更好地理解当前的技术发展,我们可以看看一些已经集成了对话式人工智能界面的数据分析平台。

Power BI Q&A

在 ChatGPT 出现之前,业界就已经开始探索对话式数据分析。早在 2019 年,微软广泛使用的商业智能工具 Power BI 推出了名为“Q&A”的功能。

该功能允许用户以自然语言(目前仅支持英语)提出关于数据的问题。这一交互通过嵌入在报告或仪表板中的文本框实现。用户输入问题后,Power BI 利用自然语言查询(NLQ)技术将问题转化为可执行的数据查询,并以可视化形式返回结果。

尽管具备一定实用性,但 Power BI Q&A 存在一个明显短板:它只能访问当前仪表板或报告所依赖的数据集。如果目标是实现企业级的数据民主化,这种受限范围显然难以满足需求。

Snowflake Cortex Analyst

相比之下,Snowflake 推出的 Cortex Analyst 更贴近真正意义上的对话式 AI 数据分析工具,也更有可能推动数据的广泛可访问性。

Snowflake 本身是一个基于云的 SaaS 数据仓库与分析平台,支持灵活扩展存储和计算资源,同时具备高效的数据处理能力。

Cortex Analyst 作为其AI驱动的分析模块,在功能上显著超越了 Power BI 的 Q&A。它不仅限于查询某个报表背后的数据,而是可以对整个底层数据库发起提问。这得益于其对语义层和模型的深度依赖,从而能够正确解析用户的自然语言请求。

[此处为图片2]

这一点引出了一个关键前提:

要实现真正的数据民主化,必须建立一个完整且经过严格审核的语义层。在让组织内所有成员都能自由使用数据之前,必须先统一关键指标和数据字段的定义,确保理解和使用的一致性。这一点至关重要,后续还需进一步展开说明。

虽然本文仅列举了两个案例,但它们足以帮助我们构想对话式 AI 在促进数据民主化方面的潜力。

数据民主化面临的主要挑战

尽管通过自然语言与数据交互并获取洞察的能力前景广阔,但我认为,阻碍数据民主化的核心问题往往并非技术层面。

成功的数据民主化需要多个基础条件的支持,包括健全的数据基础设施、完善的语义层与建模体系、良好的数据治理机制、可靠的数据质量以及广泛的员工数据素养。这些要素本身就是复杂的系统工程,现实中,许多企业仍处于建设过程中。

尤其是数据素养方面,现状尤为突出:根据沃顿商学院发布的《数据素养指数》,尽管 92% 的企业决策者认同数据素养的重要性,但仅有 34% 的公司为员工提供相关培训。

此外,还有一个我在多年数据分析实践中反复观察到的现象:总有部分用户——其中不乏高层管理者——出于各种原因拒绝采用为其量身打造的 BI 工具。尽管这类人群占比不高,但他们提醒我们一个现实:再先进的功能也无法替代用户习惯和心理接受度。许多人依然倾向于使用他们最熟悉的传统方式。

总结

有效的数据民主化不能仅仅依靠某一项热门技术,无论这项技术看起来多么有吸引力。

它需要一种系统性的、多维度的战略,除了合适的技术工具外,还必须包含强大的数据架构支撑,以及在整个组织中培育以数据为导向的文化和思维方式。

虽然由对话式 AI 驱动的数据分析尚不足以单独解决数据民主化的全部难题,但它无疑可以在整体推进过程中扮演重要角色。

从个人角度来看,我始终支持提升业务部门与数据协作的能力。因此,我认为这类 AI 分析工具最具效率的应用场景,是由业务分析师来主导使用。他们既拥有扎实的领域知识,又具备一定的数据处理能力,能够在无需编写复杂代码的情况下,借助对话式界面快速获得业务洞察。

AI 在数据分析中的演进令我深感着迷。如果你对这个话题有任何想法或见解,欢迎交流讨论。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群