全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
1028 4
2019-03-16
1. 为什么要进行归一化

    归一化后会使每一维度数据的更新速度变得更为一致,可更快通过梯度下降法找到最优解。梯度下降法求解的模型有线性回归、逻辑回归、支持向量机、神经网络模型等,但归一化对决策树模型并不适用,以C4.5为例,模型节点分裂时主要依据数据集关于特征的信息增益比,而信息增益比与是否归一化是无关的。

2.类别特征如何处理
  • 序号编码
  • 独热编码
  • 二进制编码
3 . 高维组合特征

    一阶离散特征两两组合形成高维组合。

4. 如何有效找到组合特征

    通过决策树寻找特征组合

5. 文本表示模型
  • Bag of Words
  • TF-IDF(Term Frequency-Inverse Document Frequency)
  • Topic Model
  • Word Embedding
6. Word2Vec

    一种浅层神经网络模型,它有两种网络结构,分别是:CBOW根据上下文预测当前词的概率、Skip-gram根据当前词预测上下文的概率。


  • Word2vec和LDA的区别和联系

    LDA:利用文档中的单词共现关系来进行主题聚类。也可理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。

    Word2Vec:对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如 果两个单词所对应的Word2Vec向量相似度较高,那么它们很可能经常在同样的上下文中出现。

  • 主题模型和词嵌入两类方法的主要差异

    主题模型基于“上下文-单词”矩阵进行主题推理。主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题);

词嵌入方法根据“文档-单词”矩阵学习出词的隐含向量表示。词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。

7. 图像数据不足时的处方法
  • 迁徙学习
  • 生成对抗网络
  • 图像处理
  • 上采样
  • 数据扩充

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-3-16 13:22:19
为你点赞!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-16 13:22:46
已点赞~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-16 13:45:31
已经为您点赞!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-16 14:15:19
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群