全部版块 我的主页
论坛 数据科学与人工智能 人工智能
2534 0
2016-11-08

作者现在从事量化金融 (quantitative finance) 工作在闲暇之余研究机器学习 (machine learning) 和数据科学 (data science),此外作者也喜欢研究用于上面三类的计算机程序 (computer programming) 比如 Python, R, Matlab 和 SQL。开此公众号是想和大家分享自己略知的皮毛,也期待向大牛们学习交流!


我希望我写得文章可以面向有不同背景的读者,如果你没有扎实的数理背景,我会写一类专门给 layman 看的图多的中文的文章;如果你是专业人员,我会力所能及(作者数学也不能和大牛相比)写一类专业性强的公式多英文的文章。


言归正传,下图是作者原创的中英文版的学科文氏图 (Venn Diagram):

640.webp.jpg


640.webp (1).jpg



数学,计算机学,金融学和数据学是四门基础学科。在作者读书期间,很多大学已经有开了跨学科专业:


  • 如果你喜欢数学和计算机,你可以选择计算数学。你会编写计算机程序来用牛顿法 (Newton's method) 来解一个方程的根,或者用梯度下降法 (Gradient descent) 来找一个函数的最小值。



  • 如果你喜欢数学和金融,你可以选择金融数学。你会学习(更多的是从理论方面)期权定价 (Black-Scholes) , 最优投资组合 (optimal portfolio), 随机微积分 (stochastic calculus) 和偏微分方程 (PDE, partial differential equation)等等。



  • 如果你喜欢数学,金融和计算机,你可以选择量化金融金融工程。你会学习金融数学里面的知识,但更多注重计算机应用。对于那些伊藤引理 (Itô's lemma)和臭名昭著的吉尔萨诺夫定理 (Girsanov Theorem),你会用其来推出一个随机变量的随机微分方程 (SDE, stochastic differential equation) 而且确定它的漂移项就可以了,不需要推出这些定理。最重要的是,你必须要会写代码来实现一些具体问题比如金融衍生品定价。



细心的读者可能发现,上面介绍的跨学科都忽略了“数据”这一部分,其实也不奇怪,在大学里学的或者做的项目用的也都是假数据(当然不排除一些牛逼的人自己用彭博下载真实数据写毕业论文)。大学时期做项目我们就是证实一下模型的性质或者评估一些算法的效率或者看看算出的结果是不是符合直观认识。是量化金融专业的同学自己回忆一下,当时期权定价,波动率参数你们是不是自己给的比如 5%, 10%, 20%。我会很惊讶在大学时期如果有人从彭博路透下载一个外汇波动率平面,根据市场上货币对的惯例 (convention) 考虑期权费调整或不调整 (premium adjusted/unadjusted),考虑周末和节假日,将 delta 转成行权价 (strike) 然后其维度用自然三次样条 (natural cubic spline) 插值,在期限维度用日期权重线性(day-weighted linear) 在方差上 (为了避免负的远期方差) 插值。讲了这么多就是为了说明在实践中,没有真实数据你大学学的都是纸上谈兵,对客户基本上没有价值。


而如今,在大数据 (big data),机器学习 (machine learning),区域链 (blockchain),智能合约 (smart contract) 等这些流行词 (buzzword) 盛行的时代,数据学这门学科尤显重要。


  • 没有利率曲线和波动率平面数据,你给我用布莱克 (Black) 公式定价一个1年的利率上限 (interest cap)?

  • 没有房价和房型特征数据,你给我用线性回归 (linear regression) 拟合一个它们之间的关系?

  • 没有餐馆反馈数据,你给我用逻辑回归 (logistic regression) 来进行一个情感分析 (sentiment analysis)?

  • 没有各式各样的数字数据,你给我用神经网络 (neural network) 来识别数字 (digit recognition)?

  • 没有数据,何谈大数据?何谈智能合约?何谈区域链?



数据很重要!数据很重要!数据很重要!


由于作者平时做的都是衍生品定价之类的事情,用的数据也顶多是外汇即期,外汇掉期曲线,利率曲线,波动率平面和立体,商品远期曲线和信用利差曲线等市场数据和各种产品头寸数据,数据种类和量都不是很大,用 Matlab 里面一种 struct 的数据就可以有效的储存和调用这些数据了,谈不上大数据。但是在机器学习和数据挖掘中,Matlab 处理海量数据就不是那么有效了,根据 KDnuggets 网站的调查结果,在数据科学领域 2016 年的排前三位的软件是 R, Python 和 SQL。作者在今后的文章也会逐渐介绍这些计算机语言的


top10.jpg


在今后的一年里,先定个小目标,作者争取把以下问题(排名不分先后)讲清楚,有能力的话作者也会提供代码供大家学习!


量化金融课题:


  • 金融市场数据惯例 (market convention)

  • 市场数据和产品数据日期的生成

  • 测度变换 (change measure)

  • 伊藤公式 (Itô's formula)

  • 利率曲线构建 (curve construction)

  • 波动率平面构建 (surface construction)

  • 模型校正 (model calibration)

  • 衍生品定价 - 1维偏微分方程 (1D PDE)

  • 衍生品定价 - 2维偏微分方程 (2D PDE)

  • 衍生品定价 - 蒙特卡洛 (Monte Carlo)

  • 信用估值调整 (credit value adjustment)

  • 金融估值模型总结



机器学习课题:


  • 机器学习简介

  • 线性回归(linear regression)

  • 逻辑回归(logistic regression)

  • 模型评估与选择 (model selection)

  • 贝叶斯分类器 (Bayesian classifier)

  • 决策树 (decision tree)

  • 浅谈神经网络 (neural network)

  • 集成学习 - 随机森林 (random forest)

  • 集成学习 - 自适应增强 (adaBoost)

  • 聚类分析 (clustering)

  • 最大期望算法 (expectation maximization)

  • 降维 (dimension reduction)

  • 推荐系统 (recommender system)

  • 支持向量机 (support vector machine)



数据科学课题:


  • 数据清理 (data cleaning)

  • 数据可视化 (data visualization)



编程语言课题:


  • Python

  • R

  • Matlab

  • SQL



其他课题:


  •     大数据 (big data)

  •     区域链 (blockchain)



看着这些课题我已经喘不过气了(考虑到我还有个全职工作),但没有压力就没有动力,明年这时候见成果吧。感兴趣的朋友请加公众号扫一扫。

qrcode_for_gh_86283b3f44d0_258.jpg




附件列表
640.webp.jpg

原图尺寸 93.51 KB

640.webp.jpg

Mean Machine logo.jpg

原图尺寸 137.16 KB

Mean Machine logo.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群