虽然阅读量不是很多，但是没想到居然能得到这么多收藏和赞，大家提出的问题，我会不断更新，尽量把过程解释得让大家都能了解清楚。

PS：这篇文章是自己学习纪录下的笔记，主要是通过阅读paddle复现的yolov3源码，其中代码注释和图例非常详细。

https://www.paddlepaddle.org.cn/tutorials/projectdetail/356456#anchor-21

不对的地方还请指正!!感谢

网上有很多优秀博客，介绍了yolov2的设计思想以及实现过程。绝大部分我都翻阅了一遍，也看了论文，找了视频看了。

这篇文章只说明anchorbox 和boundingbox之间的关系，想学习YOLOv2和v3整体的过程可参考这个：https://zhuanlan.zhihu.com/p/47575929

https://www.jianshu.com/p/d13ae1055302

正文：

前言：

首先看了 yolov1 过程都比较直接，直接对框位置进行回归，选择最大IOU，还算好理解。随后我看了yolov2的博客和论文，卡在了聚类生成anchorbox，框回归得到偏移值t后，如何确定位置这里。

我一直以为是类似RCNN中，先对每一个anchor点周围生成9种anchorbox，再框回归得到偏移量去调整框的位置得到boundingbox，最后利用BBox和GT的IOU去筛选框。深受这种思想的影响，所以我带着这种主观意识去看YOLO真的看得我头昏脑大。

先上论文的图：

yolo v2 借鉴了RPN的技巧，但是是略有不同的。

Anchor box：上图的黑色虚线框，Pw和Ph代表它的长宽，

问题1：anchor box的中心点在哪？

BoundingBox：上图蓝色框，通过回归得到偏移值后，以anchor box为基准进行尺度缩放变换后的框，bw和bh是根据anchor box的pw和ph来变化的。

问题2：Boundingbox 的值是如何变化的呢?

我觉得上面这个图有点误导人，这个是框回归产生偏移之后的结果。因为 anchor box作为参考基准，它的整体位置和中心点应该是不变的，但是图里面居然也随着变动了位置，具体原因见下面的分析。

分析与解释：

yolo通过聚类得到的9种先验框 [又称：锚框（anchorbox）] 的高宽(是一个固定值参考上图设为：Pw,Ph)，（网上有些博客把anchorBox和boudingBox混淆了，让我以为anchorbox是每一次都在变化调整的，搞晕了），只是用几个固定的宽高比例来描述anchorbox的尺寸信息的，所以论文中聚类得到的是5种box的高宽，不需要中心坐标！那么"中心坐标"在哪呢？回忆，我们在yolo中是将图片划分成N*N的块，每一块都是原图片的一小块（如上图的红色小块），而anchorbox的这个所谓的中心点其实可以看作是每一块的左上角坐标，如上图的箭头所指点C，其中Cx和Cy是C点的坐标，这里先假设tx,ty,tw,th是网络输出的预测值，代表坐标的偏移值（图上的σ定义为sigmoid激活函数（将函数值约束到［0,1］），就可以使得偏移后的C点也就是中心点落在红色这一块中）按上图公式进行计算σ（t）+C就是以C点为基准进行σ（t） （取值0-1）不超过一个框大小的偏移。而计算bw和bh就是唯一用到'anchorbox'的地方，只用到了‘anchorbox’的宽高(Pw和Ph)。exp(tw),exp(th)代表着缩放比例,将exp(tw),exp(th) 和(Pw，Ph)相乘后得到缩放后的长宽（参考上图），最后得到的这个（bx,by,bw,bh）就是描述的BoundingBox（预测框）的信息。

那么如何去描述他们的损失呢？

首先，yolo按照上面同样的方式先用GroundTruth（真实框）和anchorbox（先验框,锚框）反向算出偏移和缩放比，设为dx,dy,dh,dw，这个即标签label。

然后网络输出的BoundingBox（预测框）是tx,ty,th,tw四个值（代表相较于anchorbox（先验框,锚框）的偏移和缩放比）,这个是网络输出预测值predict。

我们的目标是通过网络不断学习得到的(tx,ty,tw,th)这四个值，然后用这四个值去微调（平移，缩放）anchorbox（先验框,锚框）得到BoundingBox（预测框），使得BoundingBox不断接近GroundTruth（真实框），也就是(tx,ty,tw,th)不断的接近(dx,dy,dh,dw)，梯度下降的目标也就是缩小这两者的LOSS，这就是yolov2中的回归方法。（具体YOLO损失函数可以网上搜索）