YOLO论文总结

版权公务的:冠词是视频博客作者的最初的文字。,缺少博主答应,不得假定转载。。

内容

根本理念

YOLO直接的将原始图切除成不CONC的修补。,事先的应用可折叠的运算的无用的东西不变性。,极限的出口FMPS的网格(网格)排队。,网格的每个单元平方(单元)对应于原块的面积。;极限的,每个细胞被用来预测这些感情区的细胞(GT)。。列举如下图所示,出口G对应相干的复杂示意图
YOLO可折叠的

1.2 YOLO身体陷害

上面是YOLVO1的身体陷害示意图。,您可以明晰地默认身体架构的设计。,从原始图形到预测网格的出口(网格);几乎底细——健康状况如何将原始脸表现到出口网格。;下一节YOLO剖析将抚养剖析的示意图。。
YOLOv1陷害

1.3 YOLO句法剖析

列举如下图所示,YOLO显示出特性鉴于原始脸的薄的采样(仅49个区域)。,事先的对包括Objoc的区域举行亏耗计算。;单独地Priou” role=”presentation” style=”position: 绝对;>

Priou

计算是对持有采样区域的计算。。

YOLO解说

1.4 几乎YOLVO1的几点注记

  • YOLO计算时期,将GT大块表现到(0),1)当中,助长密码表现的交换;
  • YOLO的使开始作用有或起作用是走漏的。 ReLU, 代表Relu(PROLU),Leaky Relu间或可以交换Relu。,可以冲击的范围较好的后果。
  • 朝着极限的一个人网格,每个单元预测30个值。,上述的30个值的隔离物如上图所示。,微缺乏道的解说列举如下
  • 注重,输出图葡萄汁整洁的大块%(大块)。,浆糊);

改良了YOLVO1的某个看错。,列举如下图所示,增殖了多种技术。:
YOLOv2采取的技术
注:YOL9000将不被引入。

2.1 多种技术

2. Batch Norm

BN技术可以养育线圈架的收敛裁判高声吹哨并领先,BN被添加到YOLVO2达到对准每个可折叠的层。,并迅速离开了停学技术。;使掉转船头了行动精确的的养育。。

2.1.2 High Resolution Classifer

刚过去的技术的意义是说,YOLO栽培前,从图像上的类别税收中努力赶上身体参量。;普通ImageNet在排序税收时,,输出图像的大块为224×224。;但这种低分辨系数努力赶上,对准检测线圈架的看错,合乎逻辑的推论是,在对Imagenet举行锻炼时,改良了输出的大块。,运用448×448的图片作为输出。,显示出特性高分辨系数类别器的锻炼;运用刚过去的本领,YOLOv2使升级4%;高分辨系数对线圈架的功能有很大冲击。。

2.1.3 Convolutional with anchor
  • YOLVO1运用全链路层。,该图被隔离物为7×7个网格用于预测。,除了,在这种方式下,线圈架努力赶上很难服确切的的瞄准。,引起健康的定势功能不佳。。合乎逻辑的推论是,YOLVO2计划采取更快的裁判高声吹哨。 RCNN中RPN达到对准anchor技术——这项技术使得线圈架关心努力赶上(执意将线圈架框的预测转变为对已知窗体transform预测,预测先验帧的偏移值,合乎逻辑的推论是,作者迅速离开了全体大批节层。,应用卷成层和锚 BOX用于预测瞄准帧。。
  • 为了养育分辨系数,移除极限的一个人池层。
  • 普通不运用 眼界作为输出,输出为416×416。, 而故障448*448;鉴于416×416的输出。,能发生13×13的栅极,这使得感情有一个人单元。;优点是:玩个痛快瞄准,他们的感情常常落入图片感情。,此刻用特征图感情cell去预测这些内容的瞄准框会绝对轻易些(待考察);
  • 绝朝着YOLVO1,YOLVO2每个细胞预测5个盒子。,每个盒子都有本身的类别概率预测。,执意说,每个单元的出口肥沃的为5×(20+4+1)。 = 125。请注重,这种方式与SSD非常赞许地比喻。,事先,分歧是:SSD预测BG作为一个人新的类别。,无肯定预测;YOLO预测肯定转位,区别BG和POS。注:预测BG作为新范围的相信度预测技术与本领,它有异样的意义。
  • 运用锚固技术后,引起了mAP粗瀑布(可能性YOLOv2的锻炼方式否则运用YOLOv1的方式,经过锻炼SSD可以养育YOLVO2吗?,待考察),还,YOLVO2的收回通告率受胎很大的养育。,81%88%” role=”presentation” style=”position: 绝对;>
    81%88%

    ;鉴于YOLOv2的采样大批变上千个(13*13*num_anchors),YOLVO1战利品的大批仅为(7×7×2=98)。;

用k-平均数计算锚固浆糊

确切的于SSD和更快 RCNN达到对准先验框(人工设置),主观,YOLVO2采取k-平均数法。,锻炼集合GT大块的聚类剖析,次要的对准是使得设定的先验框与GT的iou更合身的的,这组在前方帧更合身的。,线圈架更轻易努力赶上。,可以做出更合身的的的预测。;

新的身体陷害-暗色网络-19

运用DelkNET-19后,YOLVO2的MAP值缺少明显更妥。,但计算量可增加约33%。。

直接的定势预测(直接的) location 预测)
细致纹理特征

鉴于身体达到对准特征表现具有较高的分辨系数(更健康的)。,合乎逻辑的推论是,它在预测小对准面貌具有必然的优势。。因而,YOLVO2采取类似地SSD的思惟。,穿通层,用较大分辨系数特征图举行终极预测;YOLVO2的细致纹理 特征是26×26” role=”presentation” style=”position: 绝对;>

26×26

特征表现的大块(极限的一个人最大池输出),朝着DurkNET-19线圈架,大块是 26×26×512” role=”presentation” style=”position: 绝对;>

26×26×512

的特征图。除了,快捷方式确切的于SSD和RESNET。, 经过层汁前层达到对准每上床。2×2” role=”presentation” style=”position: 绝对;>

2×2

的分离区域,事先的将其交换为窄街维数。,朝着 26×26×512” role=”presentation” style=”position: 绝对;>

26×26×512

的特征图,在穿透层被处置随后,它生产 13×13×2048” role=”presentation” style=”position: 绝对;>

13×13×2048

的新特征图(特征图大块贬值4倍,窄街增殖了4倍。,图6是一个人事例,这执意在身后的缘由。 13×13×1024” role=”presentation” style=”position: 绝对;>

13×13×1024

特征图被节紧随其后队形。 13×13×3072” role=”presentation” style=”position: 绝对;>

13×13×3072

浆糊特征图,事先的鉴于该特征表现预测可折叠的。。上面是刚过去的运算的示意图。:
passthough
注:记述源自
细粒化 YOLVO2功能养育了1%后的特征。。除了,作者在穿透前增殖了64×1×1的大部分层。,增加特征图的厚度(增加计算量La),事先的运用许可。 trick;

多范围输出锻炼风尚

鉴于YOLVO2身体陷害仅是可折叠的和池。,合乎逻辑的推论是,YOLOv2的输出可以不限于416*416;合乎逻辑的推论是为了增殖线圈架坚固性,YOLVO2采取多范围输出锻炼战略。,微缺乏道的来说执意在栽培奔流中中每以一定间隔排列必然的iterations随后使改变方向线圈架的输出图片大块。YOLVO2的总步长为32。,输出图像大块选择装上尾巴值的32倍。:{320,352,...,608}” role=”presentation” style=”position: 绝对;>

{320,352,...,608}

,最小输出图像为 320×320” role=”presentation” style=”position: 绝对;>

320×320

,此刻,对应的特征表现大块为10×10” role=”presentation” style=”position: 绝对;>

10×10

(这绝不奇特。,这颇狼狈。,最大输出图像为608×608” role=”presentation” style=”position: 绝对;>

608×608

,相当的的特征浆糊为 19×19” role=”presentation” style=”position: 绝对;>

19×19

。在栽培奔流中,每10次迭代随机选择一个人输出图像的大块。,事先的,敝需求修正终极检测层的处置到ReTRAI。。 注重,这恰当的量度时输出图像的大块。,竟,运用同卵双胞的线圈架(多范围)。 栽培栽培。

降低重视有或起作用

相信预测降低重视计算:
λnoobji=0hwj=0num_anc1max_iou>thred(0ioupijiou)2” role=”presentation” style=”position: 绝对;>

λnoobji=0hwj=0num_anc1max_iou<thred(0ioupijiou)2

预测框和背景幕布框(带GT的IOU)<的框)预测相信度违法计算
+λobji=0hwj=0num_anc(IOUtruthjpijiou)2” role=”presentation” style=”position: 绝对;>

+λobji=0hwj=0num_anc(IOUtruthjpijiou)2

预测盒与GT盒间相信水平违法的计算
类预测降低重视计算:
+λclassi=0hwj=0num_ancc=1C(truthcpijc)2” role=”presentation” style=”position: 绝对;>

+λclassi=0hwj=0num_ancc=1C(truthcpijc)2


同等级的预测降低重视计算:
+λcoordi=0hwj=0num_anc1jtruthr(x,y,w,h)(truthrpijr)2” role=”presentation” style=”position: 绝对;>

+λcoordi=0hwj=0num_anc1jtruthr(x,y,w,h)(truthrpijr)2

用GT盒举行违法计算
+λpriorr(x,y,w,h)(priorjrpijr)” role=”presentation” style=”position: 绝对;>

+λpriorr(x,y,w,h)(priorjrpijr)

具有先验陷害的违法计算
微缺乏道的解说:
– 第一个人降低重视是计算相信违法。,还用何许的预测帧来预测背景幕布呢?,每个预测框和持有停飞必须做的事率先计算。 四福音书的IOU重视,取尖端,是否该值以内某个级限协定(运用YOLVO2),事先的将预测框用脚踩踏为背景幕布。,敝需求计算NOOBJ的相信水平违法。;事先的计算正例的相信降低重视。,这是与GT婚配的预测框的丧失。。
– 瞬间类降低重视预测,持有范本的类预测。
– 第三同等级的预测,率先是预测框用GT盒举行违法计算,其次是只前段计算预测框具有先验陷害的违法计算。执意说,在锻炼的前段阶段,敝可以很快地预测S。。

两大换衣:

应用剩余财产身体陷害

YOLVO3的特征汁器是一个人残差线圈架。,鉴于它包括53个卷。,因而它奢侈地DurkNET-53。,从身体陷害的角度,在暗色身体-19身体中运用残存单元。,因而它可以修建得更深。。

应用FPN身体陷害

采取FPN体系陷害(特征) Pyramid Networks for Object 检测取得多范围检测。YOLVO3运用3个刻度特征图(当输出为 416×416” role=”presentation” style=”position: 绝对;>

416×416

时): (13×13” role=”presentation” style=”position: 绝对;>

13×13

) , (26×26” role=”presentation” style=”position: 绝对;>

26×26

) , (52×52” role=”presentation” style=”position: 绝对;>

52×52

) 。

另一个尝试

1) 奈何尝试:
– 用S状弯曲交换SULTMax,执意说,S状弯曲被分为20类。,用SOFTMA代表20类出口的概率变化。鉴于某个暧昧的框包括多个附属物(机能不全另一个知识);应用孤独Logistic类别器和二值穿插熵降低重视;
– 预测单独地分别的锚婚配GT最好。,执意,甚至大于级限协定。,是否故障最好的堆叠与GT,它去甲用于亏耗计算。
2)奈何尝试
– 用直线的有或起作用代表逻辑有或起作用使开始作用,预测同等级的X,y,引起脸瀑布
– Focal 亏耗技术,也引起了2个百分点的瀑布。;这可能性是鉴于YOLO不存在中心区。 失败要处理的成绩——肥沃的降低重视源自公关。

四、总结

从YOLO的不竭改良可以走到断定。,在举行对准检测时,应用锚固技术,全可折叠的预测,运用残差节和多范围特征表现可以奉献臂板信号系统。;
一步法,他们想逐步地地走。,直接的运用RPN身体举行正确预测。,合乎逻辑的推论是,敝需求在身体设计中做很多巧妙手法。。YOLVO2的一个人次要引入是采取多范围。 Training战略,经过这种方式,相同线圈架可以服多种图片。。

1)成绩

  • YOLO 正确性有待养育。,这可能性是一个人薄的采样成绩。,合乎逻辑的推论是,葡萄汁增殖更多的以谋略达成来补偿稀少的缺乏。
  • 尤洛不克不及修正确地找到成绩放置。,执意说,敝不克不及健康的地预测高IOU帧。

2)灵感

  • YOLO的裁判高声吹哨符合它的薄的采样(如YOLOv1才7*7*2=98个区域采样),还这比某个稠密的采样的身体具有更合身的的的功能。,合乎逻辑的推论是,敝可以想出养育区域抽样行动精确的的方式。
  • YOLO的评价可能性安心前COV的特征汁。,合乎逻辑的推论是,敝葡萄汁建造物一个人用于SP的可折叠的神经身体陷害。。

注: 冠词次要是指他人的视频博客。,并有某个本身的默认。,是否有看错,迎将您修正。,道谢的话!

参考文献

1 :


发表评论