全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3111 3
2015-02-14
1.统计建模。统计模型的构建过程,统计模型就是可见数据所遵从的总体分布。可能犯的错误是将能从随机数据中抽取出来的显著特征作为挖掘出来的特征。能从随机数据中挖掘出来的显著特征有哪些?
2.机器学习。使用机器学习算法,机器学习擅长的场景是人们几乎对数据中寻找的目标几乎一无所知。当挖掘的目标能够更直接的描述时,机器学习算法并不成功。
3.建模的计算方法。将数据挖掘看成一个算法问题,数据模型仅仅就是复杂查询的答案。可以通过其生成所可能遵从的统计过程建模;对数据进行简洁的近似汇总描述;从数据中抽取最突出的特征来代替数据然后忽略其他内容。
4.数据汇总。PageRank是一种有趣的数据汇总形式;另一种重要的数据汇总形式是聚类,概括类别信息就形成了数据汇总的结果。
5.特征抽取。两种主要的特征抽取类型(1)频繁项集(2)相似项。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-2-14 19:02:48
PageRank是啥
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-14 22:27:56
olympic 发表于 2015-2-14 19:02
PageRank是啥
PageRank是一个函数,它对web中的每个网页赋予一个值。Web可以想象成一个有向图,网页就是其中的节点,如果网页
p1到p2之间存在一条或多条链接,则p1到p2存在一条有向边。可以用web转移矩阵来描述随机冲浪者的下一步访问行动。
如果网页有n个,转移矩阵M是n行n列方阵。如果网页j有k条出链,那么对于每一个出边链向的网页i,矩阵第i行第j列的矩阵
元素m_ij的值为1/k,而其他网页i的m_ij=0.随机冲浪者位置的概率分布可以通过一个n维列向量表示,其中向量的第j个分量代
表冲浪者处于网页j的概率。该概率就是理想化的PageRank的值。

随机冲浪者初始的概率分布向量v_0;Web的转移矩阵M;
那么第一步后随机冲浪者的概率分布向量就是M *v_0;
第二步之后的随机冲浪者的概率分布向量就是M^2 * v_0;
因为:如果随机冲浪者位于i的概率是x_i,那么x_i=sum_{j}m_ij*v_j

如果(1)web图是强连通的,即从任意一点可以到达其他节点;(2)图不存在终止点,即不存在出链的节点
经过若干步随机冲浪者的分布将达到极限分布v,满足v=M*v。

PageRank的直观意义就是冲浪者处于某个页面的概率越大,该页面也就越重要。一般左乘50~75次M,v就收敛。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-14 22:47:59
EchoEstelle 发表于 2015-2-14 22:27
PageRank是一个函数,它对web中的每个网页赋予一个值。Web可以想象成一个有向图,网页就是其中的节点,如 ...
谢谢讲解
要是百度用pageRank的话立马就出局了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群