RT-Thread-缺陷检测比赛Top3方案分享RT-Thread问答社区

缺陷检测比赛Top3方案分享

发布于 2021-01-14 09:44:59 浏览：958 订阅该版

[tocm]

工业缺陷检测是当前深度学习落地的热门项目，近年来许多的比赛平台都举办了关于缺陷检测的比赛，如kaggle前不久举办的钢铁缺陷检测，以及天池刚刚开始的智能算法赛：瓷砖表面瑕疵质检。

> 本文转载自：[AI约读社](http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/pyGgtW0MiCjwoHrEVBmwsg)

**注1：文末附【缺陷检测】交流群**

**注2：点赞的人暴富，论文多多！**

**瓷砖表面瑕疵质检比赛链接（奖金78万）：**[https://tianchi.aliyun.com/competition/entrance/531846/introduction](http://link.zhihu.com/?target=https%3A//tianchi.aliyun.com/competition/entrance/531846/introduction)

![img](https://pic4.zhimg.com/v2-937953012a17e9d97d0382892106c728_720w.jpg?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-937953012a17e9d97d0382892106c728_720w.jpg?source=3af55fa1)

该比赛刚刚开始有兴趣的小伙伴可以报名参加。

我调研了2018年天池的铝型材表面瑕疵识别比赛的获奖方案。从别的人方案学习到该领域相关的知识和有效的技巧。

这里分享一下一般参加比赛的思路：找开源检测框架→数据增强→调参→小改网络→调参→小改网络→调参->测试增强

## **一、铝型材表面瑕疵识别**

赛题介绍

**时间**：2018年9月1日

**比赛链接**：

[[飞粤云端2018\]广东工业智造大数据创新大赛-智能算法赛-天池大赛-阿里云天池tianchi.aliyun.com![图标](https://pic1.zhimg.com/v2-9ff811e8e00ce3c5135a503703ba5793_ipico.jpg?source=3af55fa1)](http://link.zhihu.com/?target=https%3A//tianchi.aliyun.com/competition/entrance/231682/introduction)

**比赛背景**：在铝型材的实际生产过程中，由于各方面因素的影响，铝型材表面会产生裂纹、起皮、划伤等瑕疵，这些瑕疵会严重影响铝型材的质量。为保证产品质量，需要人工进行肉眼目测。然而，铝型材的表面自身会含有纹路，与瑕疵的区分度不高。传统人工肉眼检查十分费力，不能及时准确的判断出表面瑕疵，质检的效率难以把控。

**数据介绍**：数据集包含4356张铝型材表面图片，包含单瑕疵图片，多瑕疵图片，无瑕疵图片，用于参赛者设计图像识别算法。图片所含瑕疵类型总计10种，分别为：不导电、擦花、角位漏底、桔皮、漏底、喷流、漆泡、起坑、杂色、脏点。

![img](https://pic1.zhimg.com/v2-e0181ad50c5c9bbf8c0b4dfd3afa28e6_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-e0181ad50c5c9bbf8c0b4dfd3afa28e6_720w.jpg?source=3af55fa1)

**题目要求**：初赛：分类铝材缺陷图片复赛：检测铝材缺陷位置

**赛题分析**：铝材缺陷检测和常见的缺陷检测难点相似，第一是缺陷目标不规则，同种缺陷具有不同的形状，第二部分缺陷较小，缺陷检测常常输入图片较大而缺陷较小，最后是缺陷与背景的差异小。

## 二、获奖方案

## 冠军方案：Are you OK 队

**Baseline**：**FasterRCNN**

![img](https://pic3.zhimg.com/v2-ffef8b83f3770989dec708bbfbc1ffbd_720w.jpg?source=3af55fa1)![img](https://pic3.zhimg.com/80/v2-ffef8b83f3770989dec708bbfbc1ffbd_720w.jpg?source=3af55fa1)

**改进方法：**

**1、采用特征金字塔FPN结构融合高低层信息**

动机：图片分辨率过大1920*2560，而部分缺陷较小，特征提取网络将图片缩小过多倍，缺陷特征受影响。

方法：特征金字塔结构（FPN）来对网络进行改进，FPN就是低层的特征进过卷积，上采样操作之后和高层 的信息进行融合在卷积神经网络中。这样做有两点好处：

1、高低层的信息进行结合，可以增强特征的表达能力

2、候选框产生和提特征的位置分散到了特征 金字塔的每一层，这样可以增加小目标的特征映射分辨率

![img](https://pic2.zhimg.com/v2-9ae3b20517d34082e079adfe5c0294df_720w.jpg?source=3af55fa1)![img](https://pic2.zhimg.com/80/v2-9ae3b20517d34082e079adfe5c0294df_720w.jpg?source=3af55fa1)

**2、采用可变形卷积核（Deformable Convolutoin）**

动机:铝材的瑕疵有很多是 这种条状的，传统正规的正方形结构的卷积对这种形状的缺陷处理能力还不够强。

方法：在 resent 结构的最后一个block采用可变形卷积核（Deformable Convolutoin），可变形卷积在卷积计算的过程中能够自动地计算每个点的偏移，从最合适的地方取特征进行卷积。下图大致描述 了可变形卷积的过程，它能够让卷积的区域尽可能地集中在缺陷上。

![img](https://pic4.zhimg.com/v2-a6e8adb0149a25b869a3f55b995603a8_720w.jpg?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-a6e8adb0149a25b869a3f55b995603a8_720w.jpg?source=3af55fa1)

![img](https://pic4.zhimg.com/v2-21b711936649ede86799463b5f68ff55_720w.jpg?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-21b711936649ede86799463b5f68ff55_720w.jpg?source=3af55fa1)

**3、提出Contextual ROI Pooling**

动机：Faster R-CNN是先生成候选框，然后精调候选框的过程，那么第一步生成的候选框势必会有偏大或者偏小的情况。左边这个例子是框偏大的情况，根据内部信息是可以知道框应该往里调的，但是右边这个例子框偏小了，就无法根据内部信息调节大小了，因此也需要整张图片的信息。

![img](https://pic4.zhimg.com/v2-d3b3720a36548b50a8ce142351424fe4_720w.jpg?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-d3b3720a36548b50a8ce142351424fe4_720w.jpg?source=3af55fa1)

方法：把整张图片也作为一个ROI，ROI Pooling提取全局的特征并与局部相加，再进行后面的分类和回归操作。这样的实现只多进行了一个roi的特征提取和一个特征相加的操作， 就能大大地提升准确率。

![img](https://pic2.zhimg.com/v2-793c3c6814a2cb81cff3087efe0df033_720w.jpg?source=3af55fa1)![img](https://pic2.zhimg.com/80/v2-793c3c6814a2cb81cff3087efe0df033_720w.jpg?source=3af55fa1)

**4、训练Trick**

（1）正常样本使用：合并正负样本作为新的样本

（2）数据扩增：水平和竖直翻转

**5、测试增强**

对需要预测的缺陷图片进行水平翻折，对翻折后的图片和原图进行预测，将多个结果进行 nms融合。

![img](https://pic3.zhimg.com/v2-bee3c445b1b79151afebb282aff982e7_720w.jpg?source=3af55fa1)![img](https://pic3.zhimg.com/80/v2-bee3c445b1b79151afebb282aff982e7_720w.jpg?source=3af55fa1)

## 亚军方案：BOOMBOOM队

**baseline：Faster R-CNN with FPN**

![img](https://pic2.zhimg.com/v2-3c61c9b4d9756b777371ccc02e9574e0_720w.jpg?source=3af55fa1)![img](https://pic2.zhimg.com/80/v2-3c61c9b4d9756b777371ccc02e9574e0_720w.jpg?source=3af55fa1)

**改进方法：**

**1、FPN采用了带孔卷积Dilated Convolution**

方法：将FPN网络的最后一层操作改成了带孔卷积。带孔卷积比标准卷积具有更大的感受野。

![img](https://pic1.zhimg.com/v2-7f3199df1562b576932c65e382e4b737_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-7f3199df1562b576932c65e382e4b737_720w.jpg?source=3af55fa1)

**2、采用ROIAlign代替ROI Pooling**

方法：这部分方法和嘟嘟嘟嘟队采用了相同的方法不过多的介绍了。

![img](https://pic1.zhimg.com/v2-52d9318ea541f85184503ef2f1459825_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-52d9318ea541f85184503ef2f1459825_720w.jpg?source=3af55fa1)

**3、在最后的分类部分，使用Focal Loss代替原来的交叉熵**

![img](https://pic4.zhimg.com/v2-67043fb359a7a67ed4371256bed13245_720w.png?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-67043fb359a7a67ed4371256bed13245_720w.png?source=3af55fa1)

这里介绍下focal loss的两个重要性质：

1、当一个样本被分错的时候，pt是很小的，比如当y=1时，p要小于0.5才是错分类，此时pt就比较小，反之亦然），因此调制系数就趋于1，也就是说相比原来的loss是没有什么大的改变的。当pt趋于1的时候（此时分类正确而且是易分类样本），调制系数趋于0，也就是对于总的loss的贡献很小。

2、当γ=0的时候，focal loss就是传统的交叉熵损失，当γ增加的时候，调制系数也会增加。

focal loss的两个性质算是核心，其实就是用一个合适的函数去度量难分类和易分类样本对总的损失的贡献。

![img](https://pic3.zhimg.com/v2-8d761f9eb316733ea9646402fd13935c_720w.jpg?source=3af55fa1)![img](https://pic3.zhimg.com/80/v2-8d761f9eb316733ea9646402fd13935c_720w.jpg?source=3af55fa1)

**4、训练Trick**

![img](https://pic1.zhimg.com/v2-5f049d2e0e02e8890ce806a4b5bfb521_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-5f049d2e0e02e8890ce806a4b5bfb521_720w.jpg?source=3af55fa1)

## 季军方案：嘟嘟嘟嘟队

**baseline：Faster R-CNN with FPN**

![img](https://pic1.zhimg.com/v2-2e6255fb71eeda57267ffed632579b0e_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-2e6255fb71eeda57267ffed632579b0e_720w.jpg?source=3af55fa1)

**改进方法：1、双路径特征聚合**

动机：FPN在检测极端长宽比的瑕疵的时候会有RoI映射非最优的情况出现，而极端长宽比的瑕疵（长宽比大于10）在数据集上的比例接近40%。

方法：是在原先Baseline的基础上添加多一路的特征提取，利用另一支路的特征来弥补极端长宽比瑕疵下FPN的Roi Mapping非最优所带来的特征损失。

![img](https://pic4.zhimg.com/v2-3284fe64f7392ba46190da70a9623b05_720w.jpg?source=3af55fa1)![img](https://pic4.zhimg.com/80/v2-3284fe64f7392ba46190da70a9623b05_720w.jpg?source=3af55fa1)

**2、采用ROI Align代替ROI Pooling**

动机：FPN在做Roi Mapping的时候是根据Roi的面积来计算的，这会导致当出现极端长宽比情况时，这个映射结果会偏大，导致特征丢失严重。

方法：网络在做RoiPooling的同时取映射出来的第kt层以及第kt-1层，这样即使是在kt偏大的时候kt-1的特征就更加合适了。而且，取两层的特征进行融合还能增加特征的多尺度特性，同时还不会带来额外的计算量。

![img](https://pic1.zhimg.com/v2-264173a4dee252587117d7108a42cd95_720w.jpg?source=3af55fa1)![img](https://pic1.zhimg.com/80/v2-264173a4dee252587117d7108a42cd95_720w.jpg?source=3af55fa1)

**3、训练Trick**

1、数据扩增：随机竖直/水平翻折，色彩空间增强

2、多尺度训练：大小缩放

3、预训练：采用coco数据集进行预训练

![img](https://pic3.zhimg.com/v2-516ba9ed33862b010491444cf15ab05e_720w.jpg?source=3af55fa1)![img](https://pic3.zhimg.com/80/v2-516ba9ed33862b010491444cf15ab05e_720w.jpg?source=3af55fa1)

## 三、总结

获奖方案baseline都采用了FasterRCNN， FasterRCNN 在目标检测的任务中具有较高的准确率。缺陷检测主要面对的难点是缺陷较小，且形状不过规则。也就是需要解决小目标检测和网络的泛化能力，解决这些问题的方案有使用新的卷积来应对缺陷的不规则的情况比如可变形卷积，以及采用FPN提升小目标的检测能力，其余的主要是比赛的一些技巧如数据扩增和多模融合和测试增强。