全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
973 0
2020-11-24
大数据的数学奥秘
机器学习的效果非常好,但是数学家并不确定为什么。
在几年前我参加的一次晚宴上,杰出的微分几何学家欧金尼奥·卡拉比(Eugenio Calabi)自愿地对我进行了纯数学和应用数学家之间的细微区分。纯粹的数学家在研究问题时常常会决定进一步缩小问题范围,以免造成障碍。应用数学家将卡住解释为是时候学习更多数学并找到更好的工具了。
我一直很喜欢这种观点。它解释了应用数学家将始终需要如何利用在更基础的数学中不断发展的新概念和结构。今天,这在理解“大数据”的不断努力中尤其明显,“大数据”是太大或太复杂而无法使用传统数据处理技术理解的数据集。
充其量,目前我们对正在进行的大数据革命至关重要的许多技术的数学理解是不够的。考虑最简单的情况,即监督学习,这种情况已被谷歌,Facebook和苹果等公司用来创建接近人类水平的语音或图像识别技术。这些系统始于大量的训练样本集(数百万或数十亿的图像或录音),这些样本用于训练深度神经网络以发现统计规律。像在机器学习的其他领域一样,希望计算机可以处理足够的数据以“学习”任务:计算机无需遵循决策过程所需的详细步骤进行编程,而是遵循逐渐使他们专注于算法的算法相关模式。
用数学术语来说,这些监督学习系统有大量的输入和相应的输出。目的是使计算机学习将可靠地将新输入转换为正确输出的功能。为此,计算机将神秘函数分解为称为Sigmoid函数的许多未知函数层。这些S形函数看起来像是从街道到路缘的过渡:从一个级别到另一个级别的平滑台阶,其中起始级别,台阶的高度和过渡区域的宽度没有提前确定。
输入进入S型函数的第一层,它吐出可以组合的结果,然后再馈送到S型函数的第二层,依此类推。结果函数组成的网络构成了神经网络中的“网络”。一个“深”层有很多层。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群