全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2725 0
2022-04-29
什么是计算机视觉?简单来说,计算机视觉训练计算机像我们人类一样将世界可视化。计算机视觉技术的开发使计算机能够“看到”并从数字图像或流视频中进行分析。计算机视觉问题的主要目标是利用对数字源数据的分析将其转换为关于世界的东西。


计算机视觉使用专门的方法和通用的识别算法,使其成为人工智能和机器学习的子领域。在这里,当我们谈论从数字图像中进行绘图分析时,计算机视觉侧重于分析图像中的描述,可以是文本、对象,甚至是三维模型。简而言之,计算机视觉是一种用于再现人类视觉能力的方法。

深度神经网络解决计算机视觉中的 8 个挑战
如前所述,计算机网络是过去多年中最流行和研究最充分的自动化主题之一。但除了优势和用途外,计算机视觉在现代应用部门也面临挑战,深度神经网络可以快速有效地解决这些问题。

    1.网络压缩
随着对计算能力和存储的需求飙升,部署深度神经网络应用程序具有挑战性。因此,在实现计算机视觉的神经网络模型时,投入了大量的精力和工作来提高其精度并降低模型的复杂性。

例如,为了降低网络的复杂度,提高结果的准确性,我们可以使用奇异值分解矩阵来获得低秩近似。

    2. 修剪
在计算机视觉的模型训练之后,通过执行多次微调过滤来消除不相关的神经元连接至关重要。因此,结果会增加系统访问内存和缓存的难度。

有时,我们还必须设计一个独特的协作数据库作为备份。与此相比,过滤器级别的修剪有助于直接细化当前数据库并确定过滤器在该过程中的重要性。

    3.缩小数据值的范围
系统的数据输出由 32 位浮点精度组成。但工程师们发现,使用最多 16 位的半精度浮点数不会影响模型的性能。作为最终解决方案,数据的范围是两个或三个值,分别为 0/1 或 0/1/-1。

使用这种比特的减少有效地增加了模型的计算量,但仍然存在为两个或三个网络价值核心问题训练模型的挑战。由于我们可以使用两个或三个浮点值,研究人员建议使用三个浮点尺度来增加网络的表示。

    4. 细粒度图像分类
在进行图像分类时,系统很难准确识别图像的类别。例如,如果我们想确定鸟的确切类型,它通常会将其分类为最小类。它无法精确识别两种鸟类之间存在细微差异的确切差异。但是,通过细粒度的图像分类,图像处理的准确性会提高。

细粒度图像分类使用逐步的方法并了解图像的不同区域,例如鸟类的特征,然后分析这些特征以对图像进行完整分类。使用它,系统的精度会提高,但处理庞大数据库的挑战会增加。此外,人工标注图像像素的位置信息也很困难。但与标准的图像分类过程相比,使用细粒度分类的优势在于,模型通过使用图像注释进行监督,无需额外训练。

    5.双线性CNN
双线性 CNN 有助于计算复杂描述符的最终输出并找到它们的维度之间的关系,因为所有描述符的维度都会分析各种卷积通道的不同语义特征。然而,使用双线性运算使我们能够找到输入图像的不同语义元素之间的联系。

    6.纹理合成和风格变换
当给系统一个典型图像和一个固定样式的图像时,样式转换将保留图像的原始内容,同时将图像转换为该固定样式。纹理合成过程创建由相同纹理组成的大图像。

        一种。特征反转
纹理合成和风格转换背后的基础是特征反转。正如所研究的那样,样式转换会将图像转换为类似于使用具有中间层特征的用户迭代给出的图像的特定样式。使用特征反转,我们可以得到中间层特征中图像信息的想法。

        湾。纹理生成背后的概念
对纹理图像进行特征反演,并使用它创建纹理图像每一层的克矩阵,就像图像中每个特征的克矩阵一样。

低层特征将用于分析图像的详细信息。相反,高层特征将检查图像较大背景中的特征。

        C。风格转型背后的理念
我们可以通过创建与原始图像相似的图像或更改与指定样式匹配的图像样式来处理样式转换。

因此,在此过程中,通过激活计算机视觉神经网络模型中神经元的值来处理图像的内容。同时,gram矩阵叠加了图像的风格。

        d。直接生成样式变换图像
正如所建议的那样,传统风格转换过程面临的挑战是需要多次迭代才能创建风格转换的图像。但是使用训练神经网络直接生成风格转换图像的算法是解决上述问题的最佳方案。

直接风格转换只需要在模型训练结束后进行一次迭代。此外,计算实例归一化和批量归一化是对批次进行,以识别样本归一化中的均值和方差。

        e. 条件实例规范化
生成直接风格转换过程面临的问题是必须针对每种风格手动训练模型。我们可以通过共享包含一些相似性的不同风格的风格转换网络来改进这个过程。

它改变了风格转换网络的规范化。因此,有许多带有翻译参数的组,每个组对应不同的样式,使我们能够从单个迭代过程中获得多个样式转换的图像。

    7. 人脸验证/识别
在全球范围内,人脸验证/识别系统的用例大量增加。人脸验证系统以两张图像作为输入。它分析图像是否相同,而人脸识别系统有助于识别给定图像中的人是谁。一般来说,对于人脸验证/识别系统,进行三个基本步骤:

分析图像中的人脸
定位和识别图像的特征
最后,验证/识别图像中的人脸
进行人脸验证/识别的主要挑战是在小样本上执行学习。因此,作为默认设置,系统的数据库将只包含每个人的一张图像,称为一次性学习。

        一种。深脸
它是第一个在系统中应用深度神经网络的人脸验证/识别模型。DeepFace 验证/识别模型使用网络的非共享参数,因为众所周知,人脸具有不同的特征,如鼻子、眼睛等。

因此,共享参数的使用将不适用于验证或识别人脸。因此,DeepFace 模型使用非共享参数,尤其是在人脸验证过程中识别两幅图像的相似特征。

        湾。面网
FaceNet 是谷歌开发的一种人脸识别模型,用于从人脸中提取高分辨率特征,称为人脸嵌入,可广泛用于训练人脸验证系统。FaceNet 模型通过从人脸图像映射到紧凑欧几里得空间来自动学习,其中距离与人脸相似度的度量成正比。

这里假设三因素输入,其中正样本之间的距离小于负样本之间的距离一定量,其中输入不是随机的;否则,网络模型将无法自行学习。因此,选择三个元素来指定网络中的给定属性以获得最佳解决方案是具有挑战性的。

        C。活体检测
活体检测有助于确定面部验证/识别图像是来自真人/真人还是照片。任何面部验证/识别系统都必须采取措施避免犯罪和滥用给定权限。

目前,业界有一些流行的方法来防止面部表情、纹理信息、眨眼等安全挑战,以完成面部验证/识别系统。

8. 图像搜索和检索
当系统提供具有特定特征的图像时,在系统数据库中搜索该图像称为图像搜索和检索。但是创建一种可以忽略两幅图像的角度、闪电和背景之间的细微差别的图像搜索算法具有挑战性。

        一种。经典图像搜索过程
如前所述,图像搜索是从系统数据库中获取图像的过程。经典的图像搜索过程遵循三个步骤从数据库中检索图像,它们是:

从图像中分析适当的代表向量
应用余弦距离或欧几里得距离公式搜索最近的结果并找到最相似的图像代表
使用特殊的处理技术来获得搜索结果。
经典图像搜索过程面临的挑战是搜索引擎算法后图像的性能和表示降低。

        湾。无监督图像搜索
没有任何监督外部信息的图像检索过程称为无监督图像搜索过程。这里我们使用预训练模型 ImageNet,它具有一组特征来分析图像的表示。

        C。监督图像搜索
在这里,预训练模型 ImageNet 将其与已经训练好的系统数据库连接起来,这与无监督图像搜索不同。因此,该过程使用连接分析图像,并使用系统数据集优化模型以获得更好的结果。

        d。对象追踪
分析视频中目标运动的过程称为目标跟踪。通常,该过程从视频的第一帧开始,其中围绕它的框标记了初始目标。然后对象跟踪模型假设目标将在视频的下一帧中到达哪里。

对象跟踪的局限性在于我们不知道目标会提前在哪里。因此,在任务之前要为数据提供足够的训练。

        e. 健康网
健康网络的使用类似于人脸验证系统。健康网络由两张输入图像组成,其中第一张图像在目标框内,另一张是候选图像区域。作为输出,分析图像之间的相似度。

在健康网络中,没有必要访问不同框架中的所有候选者。相反,我们可以使用卷积网络并且只遍历每个图像一次。该模型最重要的优点是基于该网络的方法是高速的,并且可以处理任何图像,而不管其大小。

        F。CFNet
CFNet 与健康网络训练模型和一些在线过滤器模板一起用于提升加权网络的跟踪性能。它在过滤器训练模型后使用傅里叶变换来识别图像区域和背景区域之间的差异。

除此之外,其他重要问题不详述,因为它们是不言自明的。其中一些问题是:

Image Captioning : 为图像生成简短描述的过程
视觉问答:回答与给定图像相关的问题的过程
网络可视化和网络理解:提供可视化方法来理解卷积和神经网络的过程
生成模型:用于分析图像分布的模型

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群