全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
916 0
2020-09-18
以下是针对应聘者和经验丰富的数据科学家的面试中的常见问题。

1.什么是数据科学?

数据科学是算法,工具和机器学习技术的组合,可帮助您从给定的原始数据中查找常见的隐藏模式。

2.什么是数据科学中的逻辑回归?

Logistic回归也称为logit模型。这是一种根据预测变量的线性组合预测二进制结果的方法。

3.列举采样期间可能出现的三种类型的偏差

在抽样过程中,存在三种类型的偏差,分别是:

选择偏见
覆盖不足偏见
生存偏见
4.讨论决策树算法

决策树是一种流行的监督式机器学习算法。它主要用于回归和分类。它允许将数据集分解为较小的子集。决策树可以处理分类数据和数字数据。


Primis Player占位符


5.什么是先验概率和可能性?

先验概率是数据集中因变量的比例,而可能性是在存在某些其他变量的情况下将给定观测者分类的概率。



6.解释推荐系统?

它是信息过滤技术的子类。它可以帮助您预测用户可能对产品给予的偏好或等级。

7.列举使用线性模型的三个缺点

线性模型的三个缺点是:

误差线性的假设。
您不能将此模型用于二进制或计算结果
有很多无法解决的过拟合问题
8.为什么需要执行重新采样?

在以下情况下进行重采样:

通过随机抽取一组数据点中的替换值或用作可访问数据的子集来估计样本统计信息的准确性
执行必要的测试时,在数据点上替换标签
使用随机子集验证模型
9.列出Python中用于数据分析和科学计算的库。

科学
大熊猫
Matplotlib
NumPy
科学工具包
Seaborn
10.什么是功率分析?

功率分析是实验设计的组成部分。它可以帮助您确定所需样本量,以便从具有特定保证水平的原因中找出给定大小的影响。它还允许您在样本量约束中部署特定概率。

11.解释协作过滤

协作过滤用于通过协作视点,多个数据源和各种代理来搜索正确的模式。

12.什么是偏见?

偏差是模型中引入的错误,因为机器学习算法过于简单。”它可能导致拟合不足。

13.在朴素贝叶斯算法中讨论“朴素”吗?

朴素贝叶斯算法模型基于贝叶斯定理。它描述了事件的概率。它基于与该特定事件可能相关的条件的先验知识。

14.什么是线性回归?

线性回归是一种统计编程方法,其中,根据第二个变量“ B”的得分来预测变量“ A”的得分。B被称为预测变量,A被称为标准变量。

15.陈述期望值和平均值之间的差

它们并没有太多差异,但是这两个术语在不同的上下文中使用。在讨论概率分布时,通常指平均值,而在随机变量的上下文中指的是期望值。

16.进行A / B测试的目的是什么?

AB测试通常用于使用两个变量A和B进行随机实验。此测试方法的目标是找出网页上的更改以最大化或增加策略的结果。

17.什么是集成学习?

集成是一种将各种学习者组合在一起以临时改善模型的稳定性和预测能力的方法。两种集成学习方法是:


装袋

套袋方法可帮助您在小样本人群上实施类似的学习者。它可以帮助您做出更接近的预测。

提升

增强是一种迭代方法,可让您根据最后的分类调整观察值的权重。增强可以减少偏差误差,并帮助您建立强大的预测模型。

18.解释特征值和特征向量

特征向量用于理解线性变换。数据科学家需要计算协方差矩阵或相关性的特征向量。特征值是通过压缩,翻转或拉伸使用特定线性变换动作的方向。

19.定义术语交叉验证

交叉验证是一种验证技术,用于评估统计分析结果如何针对独立数据集进行概括。在预测目标的背景中使用此方法,并且需要估计模型完成的准确性。

20.解释数据分析项目的步骤

以下是分析项目中涉及的重要步骤:

了解业务问题
探索数据并仔细研究。
通过查找缺失值和转换变量来准备用于建模的数据。
开始运行模型并分析大数据结果。
使用新的数据集验证模型。
实施模型并跟踪结果以分析特定时期的模型性能。
21.讨论人工神经网络

人工神经网络(ANN)是一组特殊的算法,彻底革新了机器学习。它可以帮助您根据不断变化的输入进行调整。因此,网络可以产生最佳结果,而无需重新设计输出标准。

22.什么是反向传播?

反向传播是神经网络训练的本质。它是根据前一时期获得的错误率调整神经网络权重的方法。适当的调整有助于降低错误率,并通过增加泛化来使模型可靠。

23.什么是随机森林?

随机森林是一种机器学习方法,可以帮助您执行所有类型的回归和分类任务。它还用于处理缺失值和离群值。

24.选择偏见的重要性是什么?

当在选择要分析的个人或组或数据时没有实现特定的随机化时,就会发生选择偏差。这表明给定的样本并不完全代表要分析的总体。

25.什么是K均值聚类方法?


K-均值聚类是一种重要的无监督学习方法。它是使用称为K群集的一组特定群集对数据进行分类的技术。它被部署用于分组以找出数据中的相似性。

26.解释数据科学与数据分析之间的区别

数据科学家需要对数据进行切片以提取有价值的见解,数据分析员可以将这些见解应用于实际业务场景。两者之间的主要区别在于,数据科学家比业务分析师具有更多的技术知识。而且,他们不需要了解数据可视化所需的业务。

27.解释p值?

当您在统计数据中进行假设检验时,p值可让您确定结果的强度。它是介于0和1之间的数字。基于该值,它将帮助您表示特定结果的强度。

28.定义深度学习一词

深度学习是机器学习的一种子类型。它与受称为人工神经网络(ANN)的结构启发的算法有关。

29.解释收集和分析数据以使用社交媒体预测天气状况的方法。

您可以使用Facebook,Twitter,Instagram的API收集社交媒体数据。例如,对于高音扬声器,我们可以从每个tweet(例如tweed date,retweet,关注者列表等)构建功能。然后,您可以使用多元时间序列模型来预测天气状况。

30.您何时需要更新数据科学中的算法?

在以下情况下,您需要更新算法:

您希望您的数据模型使用基础结构随着数据流的发展而发展
基础数据源正在发生变化
如果不是平稳的

31.什么是正态分布

正态分布是一组分布在正态曲线上或呈钟形曲线的连续变量。您可以将其视为连续概率分布,这在统计中很有用。当使用正态分布曲线时,分析变量及其关系非常有用。

32.哪种语言最适合文本分析?R还是Python?

Python由一个称为pandas的丰富库组成,将更适合于文本分析。它允许您使用高级数据分析工具和数据结构,而R不提供此功能。

33.解释数据科学家使用统计数据的好处

统计信息可以帮助数据科学家更好地了解客户的期望。使用统计方法,数据科学家可以获取有关消费者兴趣,行为,参与度,保留率等方面的知识。它还可以帮助您构建强大的数据模型,以验证某些推论和预测。

34.命名各种类型的深度学习框架

火炬
Microsoft认知工具包
TensorFlow
咖啡
链条机
凯拉斯
35.解释自动编码器

自动编码器是学习网络。它可以帮助您将输入转换成较少错误的输出。这意味着您将获得尽可能接近输入的输出。

36.定义玻尔兹曼机

玻尔兹曼机是一种简单的学习算法。它可以帮助您发现那些代表训练数据中复杂规律的特征。该算法使您可以针对给定问题优化权重和数量。

37.说明为什么数据清理是必不可少的,以及使用哪种方法来维护干净的数据

脏数据通常会导致内部错误,从而损害任何组织的前景。例如,如果您要进行定向的市场营销活动。但是,我们的数据错误地告诉您特定的产品将满足您的目标受众的需求;该活动将失败。

38.什么是偏态分布和均匀分布?

如果数据分布在图的任一侧,则出现偏斜分布,而当数据散布在范围内相等时,则确定为均匀分布。

39.静态模型何时发生拟合不足?

当统计模型或机器学习算法无法捕获数据的潜在趋势时,就会发生拟合不足。

40.什么是强化学习?

强化学习是一种有关如何将情况映射到行动的学习机制。最终结果将帮助您增加二进制奖励信号。在这种方法中,学习者不会被告知要采取哪个动作,而必须发现哪个动作可以提供最大的回报。由于这种方法基于奖惩机制。

41.命名常用算法。

数据科学家最常用的四种算法是:

线性回归
逻辑回归
随机森林
知识网络
42.什么是精度?

精度是最常用的误差度量是n分类机制。范围是0到1,其中1代表100%

43.什么是单变量分析?

一次不应用任何属性的分析称为单变量分析。Boxplot被广泛使用的单变量模型。

44.您如何克服发现的挑战?

为了克服我发现的挑战,需要鼓励讨论,展现领导才能和尊重其他选择。

45.解释数据科学中的集群抽样技术

当研究目标人群分布困难且无法应用简单的随机抽样时,使用聚类抽样方法。

46.说明验证集和测试集之间的差异

验证集通常被视为训练集的一部分,因为它用于参数选择,可帮助您避免对正在构建的模型进行过度拟合。

测试集用于测试或评估经过训练的机器学习模型的性能。

47.解释二项式概率公式吗?

“二项式分布包含N次试验中每项可能成功的概率,这些独立事件的发生概率为π。”

48.什么是召回?

召回率是真实阳性率与实际阳性率之比。取值范围是0〜1。

49.讨论正态分布

正态分布均等,因此均值,中位数和众数相等。

50.在处理数据集时,如何选择重要变量?说明

您可以使用以下变量选择方法:

在选择重要变量之前,请先删除相关变量
使用线性回归并选择取决于该p值的变量。
使用向后,向前选择和逐步选择
使用Xgboost,随机森林和绘制变量重要性图表。
测量给定一组功能的信息增益,并相应选择前n个功能。
51.是否可以捕获连续变量和分类变量之间的相关性?

是的,我们可以使用协方差分析技术来捕获连续变量和分类变量之间的关联。

52.将分类变量视为连续变量会产生更好的预测模型吗?

是的,仅当变量本质上是序数时,才应将其视为连续变量。因此,这是一个更好的预测模型。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群