当数据量很大以后,可视化就成了问题,如何展示100个点是容易的,展示100万个点就不是一个概念了。当学术界还坚守主成分分析的阵地时,工业界已经用流形分析的方法了,例如t-SNE。这篇文章则提出了基于 UMAP 与 LargeVis 的深入散点图来二维可视化巨量数据,作者也将代码开源了。所谓学科前沿是一个很模糊的东西,我感觉只要没完美解决的问题在哪里,哪里就是前沿。
链接:http://creatingdata.us/techne/deep_scatterplots/
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝