全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
840 0
2020-09-25
每个数据科学家的深度学习数据集
在过去的十年中,机器学习取得了巨大的发展,深度学习是对其发展做出巨大贡献的子领域之一。现代系统拥有的大量数据和巨大的计算能力使数据科学家,机器学习工程师和其他人员在深度学习中取得了突破性的成果,并继续在该领域带来新的发展。
在此博客文章中,我们将介绍您可以作为数据科学家使用的深度学习数据集,但在此之前,我们将提供有关深度学习概念的直觉。
了解深度学习
深度学习是机器学习的一个子领域,其工作结构类似于我们的大脑,称为人工神经网络。它类似于我们的神经系统,其中每个神经元相互连接。在从图像分类到语言翻译的多个行业中,深度学习已渗透到分析生态空间的各个领域。
深度学习的基础是神经网络。为了理解神经网络,例如以房价预测为例,其中房屋大小和价格是变量。为了找到价格,我们可以使用线性回归,但是如果在此处应用深度学习,则将向神经元提供输入,该神经元将在应用某些激活函数(如整流线性单位或ReLU)后生成输出。激活功能的输入为实数,输出为零或该数字。
应用某些功能后将输入映射到相应输出的任务称为监督学习。有不同类型的神经网络可用于不同目的-为了预测房价或广告收入,将使用标准神经网络,而对于图像分类,我们将使用卷积神经网络。此外,递归神经网络用于语音识别,机器翻译等。
尽管数据量有所增加,但是传统的机器学习算法(如Logistic回归,支持向量机,线性回归等)仍无法全面改善。但是,在深度学习的情况下,随着数据的增加,模型的性能也会提高。数据,计算时间和算法是深度学习过程的三个尺度。
以前,使用了S形函数,它降低了学习速度,因此计算时间更长。ReLU激活功能解决了此问题,因为参数更新速度更快并且计算时间减少了。深度学习中的某些其他概念也很重要-正向和反向传播,其解释超出了本文的范围。
现在,在深度神经网络中,隐藏层具有很大的意义。假设有一个图像,那么第一个隐藏层将尝试识别其中的边缘,并且随着您的深入研究,将形成诸如面部识别之类的复杂功能。以下是深度神经网络识别人脸并识别音频的工作过程。
图片->边缘->脸部->脸->所需脸
音频->低级声音功能(sss,bb)->音素->单词->句子
在深度神经网络中,来自上一层的激活是该层的输入,其自身的激活是该层的输出。我们不需要编写大量的代码,因为更多的数据将产生更好的结果。此外,正确的参数选择对于模型的效率至关重要。在反向传播步骤中,将更新参数。深度神经网络的超参数是学习率,迭代次数,隐藏层数,每个隐藏层单位以及激活函数。
深度学习数据集
1. MNIST –流行的手写数字深度学习数据集之一,由6万个训练集示例和1万个测试集示例组成。数据预处理所花的时间最少,而您可以尝试不同的深度识别模式以及对真实数据的学习技术。数据集的大小(如果接近50 MB)。  
2. MS-COCO –它是用于分割,对象检测等的数据集。COCO数据集的特征是–对象分割,上下文识别,东西分割,33万张图像,150万个对象实例,八十个类别对象,91个类别的工作人员,每个图像标题5个,250
3.  ImageNet  –关于WordNet层次结构组织的图像数据集。WordNet中有一个十万个短语,每个短语平均显示1000张图像。它是一个庞大的数据集,大小为150 GB。
4. VisualQA –关于图像的开放性问题存在于此数据集中,需要视觉和语言理解。功能包括– 265
5.  CIFAR-10  –图像分类数据集,由十个类别的六万张图像组成。数据集中有五个训练批次和一个测试批次,每个批次有10000张图像。大小为170 MB。
6. Fashion-MNIST –数据集中有6 万张训练图和1万张测试图像。创建该数据集以直接替代MNIST数据集。大小为30 MB。  
7. 街景门牌号 –物体检测问题的数据集。与MNIST数据集相似,仅需最少的数据预处理,但从Google Street收集的带有标签的数据可以查看门牌号。大小为2.5 GB。  
8. Sentiment140 –它是执行情感分析的自然语言处理数据集。最终数据集中有六个特征,其中情感已从数据中删除。功能包括–鸣叫极性,鸣叫ID,鸣叫日期,查询,用户名,鸣叫文本。  
9. WordNet –这是一个大型的英语同义词集数据库,描述了同义词的不同概念。大小接近10 MB。  
10. 维基百科语料库 –它包含19亿条文本记录,涉及超过400万篇文章。您可以使用短语,单词进行搜索。  
11. Free Spoken Digit –受MNIST数据集的启发,创建它的目的是识别音频样本中的口头数字。贡献的人越多,它就会增长得更多。该数据集的特征是三个说话者,一千五百个录音和英语发音。数据集的大小接近10 MB。  
12. 免费音乐档案 -这是一个音乐分析数据集,具有HQ音频功能和用户级元数据。大小几乎为1000 GB。  
13. 宴会厅 –舞蹈音频文件数据集,其中以真实音频格式提供了许多舞蹈风格的摘录。数据集由698个实例组成,持续时间为30秒,总持续时间为20940秒。  
14. 百万首歌曲 -此数据集中存在一百万首音乐曲目的音频功能和元数据。数据集是创建大型数据集的替代方法。此数据集中只有派生的功能,而没有音频。大小接近280 GB。  
15. LibriSpeech –它包括英语演讲一千小时。数据集已正确分割,并且有声学模型对此进行了训练。  
16. VoxCeleb –这是一个说话人识别数据集,它从YouTube的视频中提取,包含1251位名人的十万次讲话。性别分布均衡,专业,口音等范围广泛。有趣的任务是识别语音所属的超级明星。  
17. 城市声音分类 –该数据集包含来自十个类别的8000个城市声音摘录。训练大小为3 GB,测试集为2 GB。  
18. IMDB评论 –对于任何电影迷来说,这都是理想的数据集。用于二进制情感分类,除训练和测试复查示例外,还具有未标记的数据。大小为80 MB。  
19. 二十个新闻组 –数据集中包含报纸信息。从二十种不同的报纸中,使用了1000篇Usenet文章。主题行,签名等是其中的一些功能。数据集的大小接近20 MB。  
20. Yelp评论 –该数据集用于学习目的,由Yelp发布。它由用户评论和两万多张图片组成。JSON文件大小为2.66 GB,SQL为2.9 GB。“照片”为7.5 GB,所有压缩在一起。  
结论
深度学习,人工智能彻底改变了我们的世界,并解决了许多现实生活中的问题。数据科学家已经深深地培养了空前的数据功能,并将继续这样做,以使世界成为一个改善和安全的生活环境。每时每刻,新的发展正在经历并且其能力不断增强。随着现代计算机的发展,探索领域也呈指数增长。
随着数位专业人士试图进入这一领域,他们必须首先学习编程,而Python是开始其编程之旅的理想语言。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群