搜档网
当前位置:搜档网 › AI、深度学习与计算机视觉 (续3)

AI、深度学习与计算机视觉 (续3)

AI、深度学习与计算机视觉 (续3)
AI、深度学习与计算机视觉 (续3)

AI、深度学习与计算机视觉(续3)

筑博智慧建筑研究中心

前言

目前,工业界常用的目标检测算法,SSD是2015年发表的,RetinaNet、Mask R-CNN、Cascade R-CNN是2017年发表的,YOLOv3是2018年发表的。2020年4月,就在YOLO系列(V1~V3)作者Joseph Redmon宣布退出CV学术界不久,著名的AlexeyAB版本发布了YOLOv4的论文,接过了YOLO算法的衣钵。文章中作者试验对比了大量的近年来最新深度学习技巧,例如Swish、Mish激活函数、CutOut和CutMix 数据增强方法、DropPath和DropBlock正则化方法,并提出了自己的创新,如Mosaic (马赛克)和自对抗训练数据增强方法,共提出了包括修改版本的SAM和PAN、跨Batch 的批归一化(BN)在内的五大改进。作者在文中强调指出YOLOv4是一个平衡精度和速度的算法。当今的不少模型因为太大,需要很多GPU进行并行训练,而YOLOv4可以在一块普通的GPU(1080Ti)上完成模型数据训练,并能够达到实时性,从而能够方便地在生产环境中部署。在2020年6月YOLOv5第一版yolov5s问世,之后演化出四个近似版本。

一、Yolo v4

1.网络结构

图1Yolov4的结构图

Yolov4的结构图和Yolov3相比,因为多了CSP结构,PAN结构,如果单纯看可视化流程图,会觉得很绕,不过在绘制出上面的图形后,会觉得豁然开朗,其实整体架构和Yolov3是相同的,不过使用各种新的算法思想对各个子结构都进行了改进。

1)基本组件

先介绍下Yolov4的五个基本组件:

.

.图2CBM、CBL结构

.CBM:Yolov4网络结构中的最小组件,由Conv+BN+Mish激活函数三者组成。

Mish激活函数:激活函数每一点更加平滑,允许更好的信息深入神经网络,负值的时候允许较小的负梯度流入,保证信息不会中断,从而得到更好的准确性和泛化能力。

图3Mish激活函数图45种激活函数的比较.CBL:由Conv+Bn+Leaky_relu激活函数三者组成。

.

.图5Res unit结构图6CSPX结构.Res unit:借鉴Resnet网络中的残差结构,让网络可以构建的更深。

.CSPX:借鉴CSPNet网络结构,由三个卷积层和X个Res unint模块Concate组成。每个CSP模块前面的卷积核大小都是3×3,可以起到下采样的作用。(详见下文)

.

.图7SPP结构

.SPP:采用1×1,5×5,9×9,13×13的最大池化的方式,进行多尺度融合。

2)其他基础操作:

.Concat:张量拼接,维度会扩充,和Yolov3中的解释一样。

.add:张量相加,不会扩充维度。

3)Backbone中卷积层的数量:

和Yolov3一样,再来数一下Backbone里面的卷积层数量。

每个CSPX中包含3+2*X个卷积层,因此整个主干网络Backbone中一共包含2+(3+2*1)+2+(3+2*2)+2+(3+2*8)+2+(3+2*8)+2+(3+2*4)+1=72。

2.构造板块详解

为了便于分析,将Yolov4的整体结构拆分成四大板块:

图8Yolov4的结构分区图

输入端:这里指的创新主要是训练时对输入端的改进,主要包括Mosaic数据增强、cmBN、SAT自对抗训练。

BackBone主干网络:将各种新的方式结合起来,包括:CSPDarknet53、Mish激活函数、Dropblock。

Neck:目标检测网络在BackBone和最后的输出层之间往往会插入一些层,比如Yolov4中的SPP模块、FPN+PAN结构。

预测层:输出层的锚框机制和Yolov3相同,主要改进的是训练时的损失函数

CIOU_Loss。

1)输入端:Mosaic数据增强,cmBN(Cross mini-Batch Normalization交叉小批次正则化),SAT自对抗训练。

(1)Mosaic数据增强

Mosaic数据增强则采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接。

这里首先要了解为什么要进行Mosaic数据增强呢?

在平时项目训练时,小目标的AP一般比中目标和大目标低很多,小目标的分布并不均匀。

一般而言,小目标的定义是目标框的长宽0×0~32×32之间的物体。但在整体的数据集中,小、中、大目标的占比并不均衡。

如上表所示,Coco数据集中小目标占比达到41.4%,数量比中目标和大目标都要多。

但在所有的训练集图片中,只有52.3%的图片有小目标,而中目标和大目标的分布相对来说更加均匀一些。

针对这种状况,Yolov4的作者采用了Mosaic数据增强的方式。主要有2个优点:?丰富数据集:随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。

?减少GPU:可能会有人说,随机缩放,普通的数据增强也可以做,但作者考虑到很多人可能只有一个GPU,因此Mosaic增强训练时,可以直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果。

2)BackBone:CSPDarknet53,Mish激活函数,Dropblock

(1)CSPDarknet53:

A.CSP模块

CSPNet网络结构如下

图9CSPNet网络结构

CSPNet是Cross Stage Partial Network(跨级局部网络)的简称。如上图所示,CSPNet包含一个dense模块和一个transition层,每个dense模块由k个dense 层构成。第i个dense层的输出会与第i个dense层的输入concat汇集起来,作为第i+1个dense层的输入。CSPNet的网络结构(分两路,然后concate合一),每个CSP模块前面的卷积核大小都是3×3,可以起到下采样的作用;

CSPDarknet53经过5次CSP后:608->304->152->76->38->19

增强CNN的学习能力,在轻量化的同时保持准确性。

降低计算瓶颈,降低内存成本。

(2)Mish激活函数:主干网络中使用Mish激活函数,前文已有介绍。

(3)Dropblock:缓解过拟合的一种正则化方式

由于卷积层对dropout的那种随机丢弃信息的方式并不敏感,卷积层通常是三层连用:卷积+激活+池化层,池化层本身就是对相邻单元起作用。即使随机丢弃,卷积层仍然可以从相邻的激活单元学习到相同的信息,因此,dropblock进行的是整个局部区域的丢弃。

图10dropblock图示

3)Neck:SPP模块,FPN+PAN结构

(1)SPP:采用1×1,5×5,9×9,13×13的最大池方式,进行多尺度融合,对任意尺寸的输入产生固定大小的输出,注意:这里最大池化采用填充padding操作,移动的步长为1,比如13×13的输入特征图,使用5×5大小的池化核池化,padding=2,因此池化后的特征图仍然是13×13大小。

图11SPP模块

(2)FPN:

FPN的意义:

原始图像经过层层卷积后分辨率逐渐降低,导致小物体的丢失。高层的特征虽然包含了丰富的语义信息,但是由于低分辨率,很难准确地保存物体的位置信息。与之相反,低层的特征虽然语义信息较少,但是由于分辨率高,就可以准确地包含物体位置信息。

FPN的实现主要包括三部分:Bottom-up(自底向上)、top-down(自顶向下)、lateral connection(侧连接)。

图12FPN的实现

a.Bottom-up:

Bottom-up的过程就是将图片输入到卷积网络中提取特征的过程中。卷积输出的feature map的尺寸有的是不变的,有的是成2倍的减小的。对于那些输出的尺寸不变的层,把他们归为一个组,提取每个组中最后一层卷积输出的特征。即不同组之间的特征图尺寸大小为2倍关系。

b.Top-down:

Top-down的过程就是将高层得到的feature map进行上采样然后往下传递,这样做是因为,高层的特征包含丰富的语义信息,经过top-down的传播就能使得这些语义信息传播到低层特征上,使得低层特征也包含丰富的语义信息。

https://www.sodocs.net/doc/854150468.html,teral connection横向连接:

横向连接主要包括三个步骤:

(a)对于每个组输出的feature map都先进行一个1x1的卷积降低维度。

(b)然后再将得到的特征和上一层上采样得到特征图进行融合(直接相加),因为每个组输出的特征图之间是2倍的关系,所以上一层上采样得到的特征图的大小和本层的大小一样,就可以直接将对应元素相加。

(c)相加完之后需要进行一个3x3的卷积才能得到本层的特征输出。使用这个3*3卷积的目的是为了消除上采样产生的混叠效应(插值生成的图像灰度不连续,在灰度变化的地方可能出现明显的锯齿状)。

(3)PAN:Path Aggregation Network for Instance Segmentation(以FPN为基准)

PAN原理:a(FPN结构)b(自下而上的路径扩充)

PAN网络的特征提取器采用了一种新的增强自下向上路径的FPN结构,改善了低层特征的传播。第三条通路的每个阶段都将前一阶段的特征映射作为输入,并用3x3卷积层处理它们。输出通过横向连接被添加到自上而下通路的同一阶段特征图中,这些特征图为下一阶段提供信息。同时使用自适应特征池化(Adaptive feature pooling)恢复每个候选区域和所有特征层次之间被破坏的信息路径,聚合每个特征层次上的每个候选区域,避免被任意分配。

图13PAN网络

3.Yolov4小结

Yolov4主要带来了3点新贡献:

(1)提出了一种高效而强大的目标检测模型,使用1080Ti或2080Ti的GPU就能训练出超快、准确的目标检测器。

(2)在检测器训练过程中,验证了最先进的一些研究成果对目标检测器的影响。

(3)改进了SOTA方法,使其更有效、更适合单GPU训练。

二、Yolov5

1.概述

正当计算机视觉的从业者们正在努力研究YOLO V4的时候,6月25日,Ultralytics发布了YOLO V5的第一个正式版本,其性能与YOLO V4不相伯仲,同样也是现今最先进的对象检测技术,并在推理速度上是目前最强。YOLO V5s模型尺寸非常小,降低部署成本,有利于模型的快速部署。总的来说,YOLO V4在性能上优于YOLO V5,但是在灵活性与速度上弱于YOLO V5。由于YOLO V5仍然在快速更新,因此YOLO V5的最终研究成果如何,还有待分析。

目前,Yolov5已具备yolov5s、Yolov5m、yolov5l、Yolov5x四个版本。他们的网络深度、宽度各自不同,通过改变CSP结构的残差组件数量以及卷积的数量获得不同的深度;通过改变Focus结构中卷积核的数量获得不同的深度。我们将在后文介绍。

2.网络结构

图14YOLO V5网络结构图

图16YOLO V5的(4种版本)网络结构图

YOLO V5与前代相比,检测头的结构基本上是一样的,融合方法也是一样,提特征的网络变短了,速度更快。

3.Yolov5的基本组件:

.Focus:基本上就是YOLO v2的passthrough。

.CBL:由Conv+Bn+Leaky_relu激活函数三者组成。

.CSP1_X:借鉴CSPNet网络结构,由三个卷积层和X个Res unint模块Concate 组成。

.CSP2_X:不再用Res unint模块,而是改为CBL。

.SPP:采用1×1,5×5,9×9,13×13的最大池化的方式,进行多尺度融合

1)输入端

(1)Mosaic数据增强

Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。

(2)自适应锚框计算

在Yolo算法中,针对不同的数据集,都会有初始设定长宽的锚框。

在网络训练中,网络在初始锚框的基础上输出预测框,进而和真实框groundtruth 进行比对,计算两者差距,再反向更新,迭代网络参数。

(3)自适应图片缩放

在常用的目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。

2)Backbone

(1)Focus结构

图17切片操作示意

以Yolov5s的结构为例,原始608*608*3的图像输入Focus结构,采用切片操作,先变成304*304*12的特征图,再经过一次32个卷积核的卷积操作,最终变成

304*304*32的特征图。

(2)CSP结构

而Yolov5中设计了两种CSP结构,以Yolov5s网络为例,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中。

图18YOLO V5网络分区图

3)Neck

Yolov5现在的Neck和Yolov4中一样,都采用FPN+PAN的结构,但在Yolov5刚出来时,只使用了FPN结构,后面才增加了PAN结构,此外网络中其他部分也进行了调整。

4)输出端

(1)Bounding box损失函数

Yolov5中采用其中的GIOU_Loss做Bounding box的损失函数。YOLO V5使用二进制交叉熵和Logits损失函数计算类概率和目标得分的损失。

(2)nms非极大值抑制

在目标检测的后处理过程中,针对很多目标框的筛选,通常需要nms操作。Yolov5中采用加权nms的方式。Yolov4在DIOU_Loss的基础上采用DIOU_nms的方式比如下面黄色箭头部分,原本两个人重叠的部分,在参数和普通的IOU_nms一致的情况下,修改成DIOU_nms,可以将两个目标检出。

图19两种nms的效果比较

4.Yolov5四种网络结构的不同点

Yolov5代码中的四种网络由四个yaml格式文件描述,四个文件的内容基本上都是一样的,只有最上方的depth_multiple和width_multiple两个参数不同。通过两个参数的变化控制四种结构差异。

1)Yolov5四种网络的深度

图20YOLO V5的4种版本结构差异说明图1

在上图中有2种结构:CSP1和CSP2,其中CSP1结构主要应用于Backbone中,CSP2结构主要应用于Neck中。

需要注意的是,四种网络结构中每个CSP结构的深度都是不同的。

a.以yolov5s为例,第一个CSP1中,使用了1个残差组件,因此是CSP1_1。而在Yolov5m中,则增加了网络的深度,在第一个CSP1中,使用了2个残差组件,因此是CSP1_2。

而Yolov5l中,同样的位置,则使用了3个残差组件,Yolov5x中,使用了4个残差组件。

其余的第二个CSP1和第三个CSP1也是同样的原理。

b.在第二种CSP2结构中也是同样的方式,以第一个CSP2结构为例,Yolov5s组件中使用了1组卷积,因此是CSP2_1。

而Yolov5m中使用了2组,Yolov5l中使用了3组,Yolov5x中使用了4组。

其他的四个CSP2结构,也是同理。

Yolov5中,网络的不断加深,也在不断增加网络特征提取和特征融合的能力。

2)Yolov5四种网络的宽度

图21YOLO V5的4种版本结构差异说明图2

如上图表格中所示,四种yolov5结构在不同阶段的卷积核的数量都是不一样的,因此也直接影响卷积后特征图的第三维度,即厚度,这里表示为网络的宽度。

a.以Yolov5s结构为例,第一个Focus结构中,最后卷积操作时,卷积核的数量是32个,因此经过Focus结构,特征图的大小变成304*304*32。

而yolov5m的Focus结构中的卷积操作使用了48个卷积核,因此Focus结构后的特征图变成304*304*48。yolov5l,yolov5x也是同样的原理。

b.第二个卷积操作时,yolov5s使用了64个卷积核,因此得到的特征图是

152*152*64。而yolov5m使用96个特征图,因此得到的特征图是152*152*96。yolov5l,yolov5x也是同理。

c.后面三个卷积下采样操作也是同样的原理,这里不过多讲解。

四种不同结构的卷积核的数量不同,这也直接影响网络中,比如CSP1,CSP2等结构,以及各个普通卷积,卷积操作时的卷积核数量也同步在调整,影响整体网络的计算量。

大家最好可以将结构图和前面第一部分四个网络的特征图链接,对应查看,思路会更加清晰。

当然卷积核的数量越多,特征图的厚度,即宽度越宽,网络提取特征的学习能力也越强。

5.YOLO V5小结

YOLO V5仍然具有以下显著的优点:

(1)使用Pytorch框架,对用户非常友好,能够方便地训练自己的数据集,相对于YOLO

V4采用的Darknet框架,Pytorch框架更容易投入生产。

(2)代码易读,整合了大量的计算机视觉技术,非常有利于学习和借鉴

(3)不仅易于配置环境,模型训练也非常快速,并且批处理推理产生实时结果

(4)能够直接对单个图像,批处理图像,视频甚至网络摄像头端口输入进行有效推理

(5)YOLO V5s高达140FPS的对象识别速度令人印象非常深刻

结语

目标检测是一件比较实际的且具有挑战性的计算机视觉任务,其可以看成图像分类与定位的结合,给定一张图片,目标检测系统要能够识别出图片的目标并给出其位置,

由于图片中目标数是不定的,且要给出目标的精确位置,目标检测相比分类任务更复杂。YOLO是You only look once几个单词的缩写,大意是你仅看一次就可以预测了,灵感就来自于我们人类自己。YOLO基于一个统一的框架,单一的处理流程(阶段),由单个神经网络进行端到端的预测。

YOLO系列算法胜在它的简单与快速。如果把目标检测看做是一个捕鱼的过程,其他算法是拿着渔叉一个一个精准地狙击,那么YOLO就粗犷的多,一个渔网撒撒下去,一网打尽。YOLO的预测是基于整个图片的,并且它会一次性输出所有检测到的目标信息,包括类别和位置。

YOLO的速度非常快,可以达到实时的45fps,简化版本甚至达到155fps。而目标检测的一个实际应用场景就是无人驾驶,如果能够在无人车上装载一个有效的目标检测系统,那么无人车将和人一样有了眼睛,可以快速地检测出前面的行人与车辆,从而作出实时决策。在后续文章我们会结合应用场景来进行技术讲解。

最后我们对YOLO系列做个总的比较,结束这个系列的解读。

计算机视觉

计算机视觉综述 摘要 近年来,计算机视觉得到了广泛的应用,其在图像处理和视觉信息处理方面有着重要的意义,本文介绍了计算机视觉的概念,定义以及研究内容,对于其发展以及应用进行了简单的描述。 关键字:计算机视觉 A survey on the computer vision Abstract In recent years, computer vision enjoy a wide range of applications, it has important significance in image processing and visual information processing, this paper introduces the concept of computer vision, the definition and the research content, and a simple description is made for its development and application. Key words: computer vision 1 计算机视觉研究现状概述 计算机视觉是人工智能领域的一个重要组成部分,它的研究目标就是使计算机具有通过二维图像认知三维环境信息的能力。计算机视觉是以图象处理技术、信号处理技术、概率统计分析、计算几何、神经网络、机器学习理论和计算机信息处理技术等为基础,通过计算机分析与处理视觉信息。其是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中,包括信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

人工智能机器视觉

计算机视觉综述 摘要:自从1956 年Dartmouth学会上提出“人工智能”后,世界各国的研究者发展了众多理论和原理。人工智能是一门极富挑战性的学科,研究他的工作人员必须懂得多门学科的知识,比如计算机、心理学、哲学、生物学、仿生学等等,它涉及的范围相当的广泛。并且在这些广泛的学科又由不通的领域组成,如计算机学习、计算机视觉等。研究人工智能的目的是使机器能够担任一些需要人工处理的工作。而这些工作需要做一定的决策,要求机器能够自行的根据当时的环境做出相对较好的决策。这就需要计算机不仅仅能够计算,还能够拥有一定得智能。而要对周围的环境进做出好的决策就需要对周边的环境进行分析,即要求机器能够“看”到周围的环境,并能够理解它们。就像人做的那样。所以计算机视觉是人工智能中非常重要的一个领域。 关键词:人工智能计算机; 视觉; 图像; 1、计算机视觉的应用 人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。 计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。而计算机视觉技术正广泛的应用于各个方面,充医学图像到遥感图像,充各有检查到文件处理。在需要人类视觉的场合几乎都需要用感到计算机视觉,许多人类视觉无法感知的场合,如精确定律感知、危险场景感知、不可见物体感知等,计算机视觉更突出他的优越性。现在计算机视觉已在一些领域的到应用,如零件识别与定位,产品的检验,移动机器人导航遥感图像

人工智能与计算机视觉

过去几年,全球的互联网公司包括谷歌、微软、Facebook以及中国的百度、阿里巴巴都在加强人工智能领域的投资,设立自己的人工智能研究院。vivo是第一家设立专攻人工智能方向研究院的中国手机公司。此举是vivo内部已经确立的一份3-5年的中长期发展的战略规划,未来对人工智能的发展研究是必然趋势,vivo公司创始人兼CEO沈炜曾表示“人工智能和5G的结合将会是5G时代手机发展的趋势”。 今年我们看到vivo在产品上不少创新,比如AI拍照、商用屏下指纹技术等等,这些都是基于生物特征(biometrics)的鉴别技术,除此之外还有对人脸、虹膜、指纹、声音等特征上的识别,这些大多涉及到视觉信息,正是体现了计算机视觉的应用性,那什么是计算机视觉呢? 计算机视觉技术的概念 正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual perception),视觉认知(visual cognition),图像和视频理解( image and video understanding)。这些概念有一些共性之处,也有本质不同。 从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力,就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义,在加上这种广义视觉定义又“包罗万象”,同时也不太符合40多年来计算机视觉的研究状况,所以这种“广义计算机视觉定义”,虽无可挑剔,但也缺乏实质性内容,不过是一种“循环式游戏定义”而已。 实际上,计算机视觉本质上就是研究视觉感知问题。视觉感知,根据维科百基(Wikipedia)的定义, 是指对“环境表达和理解中,对视觉信息的组织、识别和解释的过程”。根据这种定

一文详解计算机视觉技术

一文详解计算机视觉技术 如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。这个问题是不是很弱智?但实际上,这一过程是最复杂的处理过程之一,实际上的过程大概如下:首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球(之前已经预测到它的行进轨迹)。 上述过程只在零点几秒内发生,几乎都是完全下意识的行为,也很少会出差错。因此,重塑人类的视觉并不只是单一一个困难的课题,而是一系列、环环相扣的过程。 计算机视觉技术的概念 正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual perception),视觉认知(visual cognition),图像和视频理解( image and video understanding)。这些概念有一些共性之处,也有本质不同。 从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力,就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义,在加上这种广义视觉定义又“包罗万象”,同时也不太符合40多年来计算机视觉的研究状况,所以这种“广义计算机视觉定义”,虽无可挑剔,但也缺乏实质性内容,不过是一种“循环式游戏定义”而已。 实际上,计算机视觉本质上就是研究视觉感知问题。视觉感知,根据维科百基(Wikipedia)的定义, 是指对“环境表达和理解中,对视觉信息的组织、识别和解释的过程”。根据这种定义,计算机视觉的目标是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。 计算机视觉(Computer Vision, CV)是一门研究如何让计算机达到人类那样“看”的学科。

人工智能计算机视觉发展分析

人工智能计算机视觉发展分析 计算机视觉是用电脑去识别物体的一种新技术。作为视觉来讲,必须要有眼睛与大脑两部分。计算机视觉的主要组成部分不是“眼睛”,而是“大脑”。 2011年,计算机视觉迎来了最伟大的突破。当年,谷歌人工智能实验室的杰夫·迪恩与斯坦福大学计算机系教授吴恩达合作,他们动用上万台电脑的计算资源,让计算机用深度学习算法在YouTube上观看了一千万段关于猫的视频,最后计算机终于完成了“猫脸识别”。这个项目是谷歌大脑在计算机视觉领域取得的巨大成功。 到了2014年,计算机视觉领域的ImageNet比赛第一次超越了人类肉眼识别图片的准确率——这标志着计算机视觉已经比人眼更加精准,因此具有极大地应用价值。 ImageNet国际挑战赛是计算机视觉领域最著名的比赛,被誉为国际计算机视觉领域的“奥林匹克”。它是2010年由美国斯坦福大学人工智能实验室的李飞飞教授主导推出的。早在2009年,ImageNet对1500万张图片进行了标注,涉及22000个类别的物体,李飞飞她们建立了一个规模空前的数据库。而且,她们公开了整个数据库,免费提供给全世界的人工智能研究团队。有了这个培育计算机大脑的数据库,科研工作者教会了计算机识别物体。 计算机视觉的基本原理

想要实现计算机视觉,首先需要有一个摄像头,然后把拍摄的照片成像在CCD上形成电子照片。这些电子照片是以像素为单位存储在计算机上的。每一个像素都可以看成是三个矩阵元,这些矩阵元给出了像素的RGB数值(每个数值都是整数,取值在0到255之间)。其中,R表示红色,是red的首字母; G表示绿色,是green的首字母;B表示蓝色,是blue的首字母。有了这三种基本颜色,就可以按照不同的权重叠加出千变万化的色彩。 计算机视觉所处理的主要对象就是这个RGB数值,因为每一张照片的像素很多,因此整张照片可以被看成是三个大的矩阵。 计算机视觉的本质,其实就是处理这三个矩阵,然后从这三个矩阵中提取出“特征信息”,比如对于动物的图片,可以提取的特征是“有没有尾巴?”以及“有没有毛?”等。通过对特征信息的提取与判断,可以实现“猫脸识别”或者“人脸识别”。人工智能是通过机器学习的方法,提取不同物体的特征,然后用分类器对各种事物进行分类识别。 计算机视觉的头部公司之一商汤科技与华东师范大学合作,编写了中国第一本人工智能教材《人工智能基础(高中版)》,在书中详细介绍了计算机视觉的算法实现及其基本原理。 计算机视觉有哪些相关企业与落地应用? 计算机视觉领域的应用非常广泛,其主要的落地应用有以下几个大类。

人工智能技术答案3.15

1.关于专用人工智能与通用人工智能,下列表述不当的是()。(3.0分) A.人工智能的近期进展主要集中在专用智能领域 B.专用人工智能形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能 C.通用人工智能可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题 D.真正意义上完备的人工智能系统应该是一个专用的智能系统 2.()是人工智能的核心,是使计算机具有智能的主要方法,其应用遍及人工智能的各个领域。( 3.0分) A.深度学习 B.机器学习 C.人机交互 D.智能芯片 3.()是自然语言处理的重要应用,也可以说是最基础的应用。(3.0分) A.文本识别 B.机器翻译 C.文本分类 D.问答系统 4.()是指直接通过肢体动作与周边数字设备和环境进行交互。(3.0分) A.体感交互 B.指纹识别 C.人脸识别 D.虹膜识别 5.(),中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。(3.0分)

A.2018年3月15日 B.2018年10月31日 C.2018年12月31日 D.2019年1月31日 6.立体视觉是()领域的一个重要课题,它的目的在于重构场景的三维几何信息。(3.0分) A.人机交互 B.虚拟现实 C.自然语言处理 D.计算机视觉 7.下列选项中,不属于生物特征识别技术的是()。(3.0分) A.步态识别 B.声纹识别 C.文本识别 D.虹膜识别 8.()是通过建立人工神经网络,用层次化机制来表示客观世界,并解释所获取的知识,例如图像、声音和文本。(3.0分) A.深度学习 B.机器学习 C.人机交互 D.智能芯片 9.生物特征识别技术不包括()。(3.0分) A.体感交互 B.指纹识别 C.人脸识别 D.虹膜识别

2019年人工智能计算机视觉行业分析报告

2019年人工智能计算机视觉行业分析报告 2019年8月

目录 一、计算机视觉:AI主要应用领域,安防等结合较为紧密 (6) 1、人工智能:是国内科创主力军,17-22年复合增速超50% (6) 2、计算机视觉:AI主要应用,规模远超其他细分 (8) 3、计算机视觉应用场景:安防为主,多领域渗透 (8) 二、安防:AI带来长期增量,各路力量皆有机遇 (10) 1、AI大势所趋:向“看得懂”的转变,正向反馈推动渗透进一步加深 (10) (1)安防行业产业链:主要厂商集中在中游,AI趋势让行业属性逐步延伸 (10) (2)AI趋势:解决安防产业由“看得见”、“看得清”向“看得懂”的转变 (11) (3)正向反馈效应:客户明确提出AI需求,有望推动渗透进一步加深 (12) 2、需求端:AI技术提升安防价值,打开长期新空间 (13) (1)传统视频监控领域:国内市场未来五年复合增速有望达到10%左右 (13) (2)长期来看,AI有望打开市场空间,给市场整体规模带来20%左右增量 (14) 3、供给端:各路力量积极参与,传统龙头仍具有优势 (17) (1)三路力量同场竞技,看好传统龙头竞争优势 (17) ①市场格局逐步稳定,CR2份额超50% (17) ②三路力量积极参与,逐渐走向竞争 (18) ③几路力量的比较下,仍看好传统安防领域龙头 (18) (2)传统厂商:持续的研发投入奠定基础,算法等AI布局已经不落下风 (20) ①传统厂商中的龙头公司凭借其充足的投入占得AI研发先机 (20) (3)知名科创企业:AI技术带来价值,真正提升安防效率 (22) ①后端技术:跨境追踪,精度上超过其他竞争者 (23) ②前端设备:AI智能相机影像处理速度首次降至毫秒级 (24) ③对安防效率和价值的提升 (25) (4)大型互联网公司:以华为为例 (26) ①依托云计算优势打造自身安防云平台 (26)

2020天津继续教育考试_人工智能技术及其发展趋势

一、单选题 1.(B)是人工智能的核心,是使计算机具有智能的主要方法,其应用遍及人工智能的各个领域。(3.0分) A.深度学习 B.机器学习 C.人机交互 D.智能芯片 2.(C)是自然语言处理的重要应用,也可以说是最基础的应用。( 3.0分) A.文本识别 B.机器翻译 C.文本分类 D.问答系统 3.下列对人工智能芯片的表述,不正确的是(C)。(3.0分) A.一种专门用于处理人工智能应用中大量计算任务的芯片 B.能够更好地适应人工智能中大量矩阵运算 C.目前处于成熟高速发展阶段 D.相对于传统的CPU处理器,智能芯片具有很好的并行计算性能 4.下列选项中,不属于生物特征识别技术的是(C)。(3.0分) A.步态识别 B.声纹识别 C.文本识别 D.虹膜识别 5.(A)是指直接通过肢体动作与周边数字设备和环境进行交互。(3.0分) A.体感交互 B.指纹识别 C.人脸识别 D.虹膜识别 6.生物特征识别技术不包括(A)。(3.0分)

A.体感交互 B.指纹识别 C.人脸识别 D.虹膜识别 7.(A)是通过建立人工神经网络,用层次化机制来表示客观世界,并解释所获取的知识,例如图像、声音和文本。(3.0分) A.深度学习 B.机器学习 C.人机交互 D.智能芯片 8.立体视觉是(D)领域的一个重要课题,它的目的在于重构场景的三维几何信息。(3.0分) A.人机交互 B.虚拟现实 C.自然语言处理 D.计算机视觉 9.关于专用人工智能与通用人工智能,下列表述不当的是(D)。(3.0分) A.人工智能的近期进展主要集中在专用智能领域 B.专用人工智能形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能 C.通用人工智能可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题 D.真正意义上完备的人工智能系统应该是一个专用的智能系统 10.(B),中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。(3.0分) A.2018年3月15日 B.2018年10月31日 C.2018年12月31日 D.2019年1月31日

湖南大学2011计算机视觉答案

一.名词解释 1.模糊聚类分析 涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法。聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例如人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。 2.人工智能 解释1:人工智能(Artificial Intelligence) ,英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 解释2:什么是人工智能呢?人工智能,是由人类设计并在计算机环境下实现的模拟或再现人的某些智能行为的技术。一般认为,人类的智能活动可以分为两类:感知行为与思维活动。模拟感知行为的人工智能研究的一些例子包括语音识别、话者识别等与人类的听觉功能有关的“计算机听觉”,物体三维表面的形状知识、距离、速度感知等与人类的视觉有关的“计算机视觉”,等等。模拟思维活动的人工智能研究的例子包括符号推理、模糊推理、定理证明等与人类的思维过程有关的“计算机思维”,等等。 3.图像分割 图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。近年来,研究人员不断改进原有的图像分割方法并把其它学科的一些新理论和新方法用于图像分割,提出了不少新的分割方法。 二、计算机视觉研究的目的是什么?它和图像处理以及计算机图形学有哪些联系和区别?(12分)

计算机视觉:领跑人工智能的核心技术

计算机视觉:领跑人工智能的核心技术 中央明确指示要加快推进国家规划已明确的重大工程和基础设施建设,其中要加快5G 网络、数据中心等新型基础设施建设进度。相比于传统的"铁公基",新基建是立足于高新科技的基础设施建设,主要包括5G基建、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网等七大领域。 当前人工智能理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。据IDC统计,2018年我国人工智能市场规模为161.9亿元,预计到2022年市场规模将接近700亿元,年复合增长率超过50%。据中国人工智能学会和罗兰贝格咨询公司预测,2025年市场规模将达到3万亿美元。 以深度学习为代表的人工智能算法的出现极大推动了视觉人工智能行业的发展。计算机视觉是人工智能行业的最大组成部分,与其他细分的比较来看,计算机视觉技术应用的市场规模也远远大于其他细分。

计算机视觉(Computer Vision) 人工智能主要应用领域之一,起源于20世纪80年代的神经网络技术,通过使用光学系统和图像处理工具等来模拟人的视觉能力捕捉和处理场景的三维信息,理解并通过指挥特定的装置执行决策。2015年以来,全球科技界和产业界高度重视视觉人工智能研究和应用,在核心技术和产业化应用的研发投入持续倍增。 计算机视觉能极大提升机器的图像感知能力和认知能力,因此应用场景十分广阔,商业化变现空间大。根据前瞻产业研究院的统计,国内人工智能企业中,有高达42%的企业应用计算机视觉相关技术,其次是语音和自然语言处理,分别占比24%、19%,两者之和才与计算机视觉占比相当。在安防影像分析、泛金融身份认证、手机和互联网娱乐、批发零售商品识别、工业制造、广告营销、自动驾驶、医疗影像分析等领域都具有巨大应用价值。

AI、深度学习与计算机视觉

AI、深度学习与计算机视觉 筑博智慧建筑研究中心 1.前言 人工智能的兴起、人工智能技术的突破给人类社会带来了深刻的变革,人工智能是犹如内燃机一样的“使能”技术,具有赋能其他技术的潜力。中国拥有世界最大的人口数量、市场容量、多维度的数据资源,人工智能的发展潜力得天独厚。然而,由于人工智能的原理涉及认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论等众多学科,其相关论文论著等又涉及大量的专业术语、数学公式、程序代码和外语,往往让人视为畏途、高不可及。本文旨在为有志于了解与学习人工智能的读者搭建一条栈道,助力登攀。计算机视觉是人工智能最重要和最成功的领域,因此本文以此为切入点。 2.如何训练机器去学习 2.1电脑与人脑 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去。有因有果,非常明确。但这样的方式在机器学习中行不通。机器学习接受的并不是你输入的指令,相反,它接受你输入的数据!也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。这听起来非常不可思议,但结果上却是可行的。相关而不是因果的概念将是支撑机器学习能够工作的核心概念。 机器学习与人类思考的经验过程是类似的,不过它能考虑更多的情况,执行更加复杂的计算。事实上,机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题。

首先,我们需要在计算机中存储历史的数据。接着,我们将这些数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。 人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。 机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。 图1机器学习与人类学习比较 2.2神经元 我们模仿人类大脑,把人工神经网络看成是一种运算模型,由大量的节点(或称神经元)相互连接构成。一个生物的神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以向其他多个神经元传递信

人工智能在计算机视觉及网络领域中的应用

龙源期刊网 https://www.sodocs.net/doc/854150468.html, 人工智能在计算机视觉及网络领域中的应用作者:张大巍 来源:《电子技术与软件工程》2018年第11期 摘要这些年人工智能技术已经全面深入到人们日常生活中去,为人们日常生活提供了各 种便利条件。计算机应用,人工智能现象,已经成为当前计算机市场的常态。本篇文章主要分析计算机网络应用人工智能的重要性。简要阐释人工智能技术基本理论,然后分析计算机应用过程中,人工技能技术存在的问题。分析当前市场计算机网络哪些方面应用了人工智能技术。这些在计算机网络中的应用的人工智能技术又为人们的生活带来了怎样的便利。 [关键词]人工智能技术计算机网络重要性 1 人工智能概述 人工智能属于计算机领域方面,从字面意义上理解可以分为人工和智能两个方面,人工是指是有人类建造的以及为人类服务的设备,机械。智能是指机器可以识别人的思维模式,根据人类的意念更好地为人类进行服务。新时代由于政府的支持和技术的进步,人工智能技术已经成为发展最快的一项技术。和传统机械运作不同,人工智能最突出的亮点就是可以对人的思想以及人类思维方式进行合理模拟,人工智能不是指人类智力的提高,而是指机器能够实现像人类那样思考,为人类服务的过程。人类是智慧生物,具备充分创新潜力,但是人类本身对自身智慧了解非常局限。对于构成人体智能的大脑了解程度也非常不完善。因此,人工智能研究不仅是对机器进行研究,同时包括对人本身智力人体结构进行研究与开发。涉及多种领域,人工智能所包含的语音识别系统、识别人类图像系统、以及语言处理系统都为人类生活带来了极大便利。人工智能研究领域的终极目标也是让机械实现人类不可能完成的任务。 2 人工智能的发展 人工智能技术发展起源在1956年的夏季,几个年轻的科学家在一起共同头脑风暴,用设备模拟人类思维可以处理的问题。他们发现,对设备输入一系列人类面对此问题会做出的决策,设备也可以模拟人类对问题做出回答。科学家们对此现象非常感兴趣并且进行深入研究。从此,人工智能这一语言也正是应用在科学文化当中去,成为一门独立科学。自其研发之日起,也有50多年的历史。这门科学,也由过去单一的对设备研发成为一门交叉多门学科涉猎广泛的科学。人工智能研发的终极目标就是让机器具有意识感,能够像人类一样知道什么是思考,什么是意识,那么机器就具有智慧。发展到今天,人工智能已经不仅仅是科学家研究的主要课题,同时也是全球对这门课题感兴趣,具有探索精神的人类共同研究的课题。有人的努力推动了人工智能技术迅速发展,人工智能在今天人们生活工作中发挥重要的作用。原本只能由人类来完成的工作,现今计算机系统也可以进行分担。时至今日,人工智能可谓硕果累累,人类可以与机器进行对弈,机器可以实现自动化。单引擎识别系统可以实现对人类语言识别,对

人工智能之计算机视觉应用专题报告

人工智能之计算机视觉应用专题报告2016 2016年,Alpha Go战胜韩国围棋选手李世乭再次引爆了全球对于人工智能的讨论和关注。计算机视觉作为人工智能技术的基础,受到深度学习的成功影响在近几年内取得了突破性的进展,正在成为影响行业发展的下一个引擎。巨头纷纷布局,市场也吸引了越来越多的人才创业参与其中。计算机视觉正在成为人工智能最火热的细分领域之一。 本报告将针对计算机视觉技术发展的关键节点、市场现状及应用场景进行分析和研究。 一、技术发展及市场现状分析 1.人工智能是一场从终极概念到分级落地的技术演变 2.人工智能所依赖的基础设施已经就位,但当前仍属于早期阶段 人工智能正在像婴儿一样成长,机器不再只是通过特定的编程完成任务,而是可以通过不断地学习来掌握本领,这主要依赖高效的模型算法进行大量的数据训练,其背后需要具有高性能计算能力的软硬件作为支撑。伴随互联网的高速发展和底层技术的不断进步,人工智能所需的“能源”正在不断完善。 数据量:2000年至今互联网及移动互联网的高速发展使得数据实现了量的积累,据IDC预测,2020年全球的大数据总量将为40ZB,其中有七成将会以图片和视频的形式进行存储,这为人工

智能的发展提供了丰厚的土壤。 深度学习算法:多伦多大学教授Geoffrey Hinton(致力于神经网络和深度学习研究)的学生在业内知名的图像识别比赛ImageNet中利用深度学习的算法将识别错误率一举降低了10%,甚至超过了谷歌,深度学习进而名声大噪。2015年,微软亚洲研究院视觉计算组在该项比赛中夺冠,将系统错误率降低至3.57%,已经超过了人眼。 高性能计算:GPU响应速度快、对能源需求低,可以平行处理大量琐碎信息,并在高速状态下分析海量数据,有效满足人工智能发展的需求。 基础设施成本:云计算的普及和GPU的广泛使用,极大提升了运算效率,也在一定程度上降低了运营成本。IDC报告显示,数据基础设施成本正在迅速下降,从2010年的每单位9美元下降到了2015年的0.2美元。 与此同时,巨头和创业公司也相继投入资源和成本进行商业化探索,但技术本身尚有足够大的成长空间,当前仍处于早期阶段。 3.当前国内人工智能领域产业格局尚未成熟,上中下游均蕴含着不俗的创业空间,但进入门槛较高 目前国内人工智能领域的产业发展还较为青涩,核心基础设施层面较为依赖国外市场,但也因市场变革期而存在大量弯道超车的机会,出现了地平线机器人、Cista、图灵机器人等创业型公司;

相关主题