计算机视觉中的 10 个 AI 项目理念

704

收藏 2022-08-16

人工智能是一门让机器做人类做就需要智力的事情的科学。” ——马文·明斯基，麻省理工学院人工智能实验室的联合创始人。

上面的引用很好地总结了人工智能 (AI) 的美丽。使用人工智能来自动化简单的任务可以让人类投资于解决更具挑战性的问题。这就是为什么我们都目睹了人工智能获得了很大的吸引力，尽管这项技术还处于起步阶段。通过查看 Gartner 最近的调查，人们可以轻松地确认这一点，该调查显示，到 2024 年底，75% 的组织将从试点转向运营 AI。

机器学习、深度学习、自然语言处理等人工智能技术允许他们的用户从数据中得出有洞察力的结论，否则这些结论是不会被揭示的。他们还为个人提供对特定参数的预测，从而为未来做好准备。并且，请不要将数据集视为数字的集合。过去是这样的日子已经一去不复返了。随着人工智能技术进步的出现，从图像和文本中提取信息已成为可能。

处理以图像和视频形式利用数据潜力的人工智能分支称为计算机视觉。计算机视觉 (CV) 有许多令人兴奋的应用，在本博客中，我们将列出CV 爱好者可以从事的AI 项目创意。项目创意已分为下面提到的类别，因此您可以根据您在行业中的经验顺利浏览它们。

面向初学者的计算机视觉 AI 项目
面向中级专业人员的计算机视觉 AI 项目
挑战专家计算机视觉中的 AI 项目
面向初学者的计算机视觉 AI 项目

1）人脸识别应用

人脸识别是一个有趣的基于计算机视觉的应用程序，大多数初学者都喜欢构建它。想想看，一个可以看到你的照片并用你的名字识别你的应用程序，听起来很酷吧？使用这么多计算机视觉库创建这样的应用程序并不像您想象的那么困难。

解决方法：使用 Haar Cascade Classifiers 在 Python 中构建人脸识别系统非常简单。它是一个预训练模型，可以检测给定图像中是否存在人脸。您可以使用此模型在图像中定位人脸，然后使用 KNN 机器学习算法来估计它与另一张人脸的匹配程度。

数据集：此项目使用耶鲁人脸数据库，该项目有 165 张图像，灰度为 15 人。

用例：人脸识别被广泛用作一种安全功能，例如，在手机的锁屏上，以防止随机个人解锁它。

2) 口罩检测

随着中国关闭学校并再次取消航班以应对最近激增的冠状病毒病例，全世界的公民都感到震惊。到目前为止，我们都知道，保持至少 2 米的物理距离和戴口罩是我们可以采取的两个主要步骤来控制病毒的传播。然而，我们看到很多人在公共场所不戴口罩。解决这个问题的方法可以是使用 CV 构建一个可以检测未戴口罩的人的系统。

解决方法：使用像 ImageNet 这样的 CNN 模型并对其进行训练，以了解带有面具的人脸和没有面具的人脸之间的区别。在达到不错的准确性后，下一步将是检测给定图像中的面部特征。最后，应用模型来测试掩码的存在。

数据集：您可以将 Prajna Bhandary 的COVID-19 图像数据集用于该项目，该项目有 690 张戴口罩的人的图像和 686 张不戴口罩的人的图像。

用例：该模型可以部署在公共场所，以确保不戴口罩的人被罚款。

3) 猫狗分类项目

该项目的目标是使用计算机视觉学习图像分类。对于初学者来说，这是一个有趣的计算机视觉项目创意，他们将训练深度学习算法来区分狗和猫的图像。

解决方法：对于这个问题，您可以使用 Python 中的 TensorFlow 和 Keras 从头构建一个简单的 CNN 模型，并训练它学习猫和狗的特征。作为替代方案，您还可以使用像 VGG-16 这样的简单 CNN 模型来自动区分这两种动物。

数据集： Kaggle 上的 Dogs vs. Cats 数据集

用例：这个项目的想法最好是了解如何使用 Python 中的 TensorFlow 和 Keras 库从头开始构建卷积神经网络 (CNN) 模型。

4) 点击我的自拍！系统

点击自拍现在是 Z 世代的爱好！他们学东西的速度更快，因为他们属于从出生就见证了智能手机无处不在的一代。而且，他们中的大多数人会毫不犹豫地与朋友分享他们在社交媒体上学到的东西。因此，我们为我们的 Z 世代想出了一个出色的计算机视觉项目创意，制作一个自动自拍系统，当人们微笑着看着相机时点击图片。

解决方法：对于这个项目，你可以使用像 VGG-16 这样的卷积神经网络模型来训练它来区分笑脸和非笑脸。一旦你达到了不错的精度，就可以继续用你的图像测试模型。之后，您可以使用 OpenCV 库在实时摄像头的每一帧上实现此模型，然后在检测到笑脸时触发摄像头捕捉该帧。确保在每次测试和训练模型之前执行人脸检测。

数据集： Kaggle 上的微笑检测数据集

用例： Z世代不仅可以用它来点击自拍，许多开展活动的数字营销团队也可以从中受益，如果用户在他们的社交媒体上分享评论，就会赠送免费样品。

面向中级专业人员的计算机视觉 AI 项目

5）文本识别系统

访问一个与您说不同语言的外国可能具有挑战性。但这不应阻止您探索它们并体验这些国家可能提供的文化。幸运的是，借助计算机视觉技术，前往世界不同国家/地区的旅行体验得到了极大改善。其背后的原因之一是它在文本识别系统中的应用，该系统可以读取任何语言并将其翻译成用户指定的语言。

解决方法：对于这个项目，主要任务是光学字符识别（OCR），您可以使用谷歌的 Tesseract 以及像 YOLO v4 这样的对象检测模型。您可以下载预训练的 YOLO 权重，然后使用它制作您的自定义对象检测模型。之后，使用 LabelImg 对图像进行注释以进行训练。接下来，使用带注释的图像训练 YOLO 模型。此外，使用 Pytessaract 库从测试图像中提取文本，然后预测文本。

数据集： Kaggle 上的 Text-Image-OCR 数据集

用例：为语言翻译应用程序实施此项目。

6) 使用 MNIST 的数字识别器

MNIST 数据集是数据科学社区中非常流行的数据集。它具有手写数字的图像，是通过 NIST 对原始数据集重新采样而创建的。MNIST 数据集有大约 70,000 张大小为 28 x 28 像素的黑白图像。对于这个项目，你可以使用这个数据集构建一个数字识别系统。

解决方法：该项目的第一个方法是正确分析 MNIST 数据集。它将让我们了解在应用任何算法之前必须如何预处理数据。一旦执行了分析和预处理，您就可以设计一个 CNN 模型用于在 Python 中对数字进行分类。在达到相当的准确度后，继续使用测试图像测试模型。您可以使用混淆矩阵来深入可视化模型的性能。

数据集： Yann LeCun、Corinna Cortes 和 Chris Burges 的 MNIST 手写数字数据库

用例：该项目可以扩展以构建一个应用程序，该应用程序可以读取不同语言的手写文本并将其转换为数字信息。然后可以应用语言翻译技术将其转换为他们选择的语言。

7) 图像着色

在看着那些旧的灰度图像时，我们中的许多人都很难想象捕捉到的那一刻所包含的颜色。为了减轻我们的痛苦，计算机视觉技术有一个完美的解决方案，因为人们可以用它来制作一个智能图像着色系统。

解决方法：为了实现这个项目的想法，你可以使用 VGG-16 模型。初始化模型参数后，使用ImageDataGenerator重新缩放图像。接下来，将 RBG 格式转换为 LAB 格式。之后，使用 Keras 为自动编码器制作序列模型，并使用测试图像测试其性能。

数据集： Kaggle 上的风景图片

用例：该项目可用于为旧的历史图像着色以从中获取更多信息。

挑战专家计算机视觉中的 AI 项目

8) 社交距离追踪器

社交距离，即人与人之间保持两米的物理距离，是对抗冠状病毒的最佳预防措施之一。该病毒是致命的，如果公民希望在不久的将来不发生偶尔的封锁，则必须遵守社会疏离规范。计算机视觉技术可以提供很大帮助，因为人们可以使用它来构建一个系统来估计给定框架中任意两个人之间的距离。

解决方法：该项目的第一步是使用像 Faster RCNN 这样的对象检测模型，并训练它识别帧中的人。完成后，您将必须设置像素的比例并使用该比例将像素距离转换为实际距离。如果该距离小于 2 米，屏幕上会弹出警告消息。

数据集：社交距离数据集

用例：该项目可以部署在机场、公共汽车站、市场等公共场所，以确保社交距离。

9) 停车管理系统

我们中的许多人不喜欢排长队等待分配停车位。但是现在我们有了计算机视觉技术，预计排长队很快就会消失。这主要是因为我们可以利用人工智能技术来创建一个自动停车系统，一个人的汽车可以自动停车。

解决方案：本项目将有车牌识别、车辆识别、路径识别、自动借记系统等几个小项目。对于前面提到的三个项目，您可以使用对象检测模型并对其进行训练，以学习如何识别车牌及其模型。之后，使用计算机视觉根据识别来导航车辆的路径。下一步是扫描记录

数据集：我们建议您花时间构建自己的数据集，尤其是对于这个项目。对于试用方法，您可以使用Kaggle 上提供的Stanford Cars Dataset和Car License Plate Detection 。

用例：该项目可在商场、地铁站等实施，以加快停车流程。

10) 自动考勤系统

在机构中维护员工/学生的物理记录有时很困难，因为它可能需要空间。多亏了 IT 行业的发展，现在可以轻松访问基于软件的考勤系统。这些使得以数字方式存储信息成为可能，这比寄存器更方便和高效。然而，人工智能专家希望通过使用计算机视觉使考勤系统更加流畅和自动化。这样的系统将捕获个人的面部并扫描先前存储的记录以识别该人。一旦面孔与其中一条记录匹配，它将自动将该人标记为存在。

解决方法：第一步是让 CNN 模型学会识别必须标记出勤的人。之后，通过提交一个人的图像并对其进行人脸检测来测试系统的性能。接下来，使用经过训练的 CNN 模型来识别人。一旦一个人被识别出来，通过将他标记在数据库中来更新其记录。

数据集：最好为这个项目自己创建一个数据集，因为这样会更有趣。否则，您可以使用CelebA 数据集。

用例：各种公司可以使用这个项目来自动化他们的考勤系统。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

职场问诊 | 大厂裁员，如何正确的面对这个危机？

大三信管专业的我，用一个月通关CDA Level Ⅰ、Level Ⅱ 和CDA持证人分享

数据科学和企业的数据能力建设

商业智能分析工具的应用

TI类数据产品设计

管理分析需求与绩效指标

PyTorch最全的损失函数汇总

数据分析最常用的excel函数公式大全

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群