基于SegNet的非标准DM码的区域提取

基于SegNet的非标准DM码的区域提取

胡钡1,赵江铭1 ,高建设1,张小琛1

1.郑州大学 机械工程学院,郑州 450001)

 

 要:不同背景不同位置的二维码的区域提取技术一直以来都是DM码识别技术中的的关键核心技术。目前,已有的二维码区域提取方法主要是利用卷积神经网络或者BP神经网络等方法来实现的,其共同特点是基于神经网络方法,且有较高的准确率,但这些方法存在以下缺点:1.训练过程复杂繁琐;2.训练后仍需对图片进行特征变换或者图片重组才能达到对其进行定位识别的目的。针对该问题,提出了一种基于SegNet的DM码条码区域提取方法:先采用语义分割的理论方法从图片中分割出对象区域,再对二维码区域进行定位,并进行了实验验证。实验结果表明,与已有的基于神经网络定位图片的方法相比,基于SegNet的定位方法更为简洁高效,且具有更高的准确率和鲁棒性。

关键词:SegNet;DM码条码;区域提取法;语义分割;

中图分类号:TH39  文献标识码:A       文章编号:

 

A SegNet-based DM Code Region Extraction Method

HU Bei1, ZHAO Jiang-ming1, GAO Jian-she1, ZHANG Xiao-chen1

(1.School of mechanical Engineering,Zhengzhou University,Zhengzhou 450001,China)

 

Abstract: The region extraction of two-dimensional codes with different backgrounds and positions has always been the emphasis of DM code recognition. Currently, the existing methods of two-dimensional code region extraction include convolution neural network or BP neural network.These new methods are all based on neural networks and have high accuracy. However, these methods still have the following drawbacks:1.The training process is complicated and tedious. 2.After the training, it is still necessary to transform the features or reorganize the images to achieve the goal of positioning and recognition.In order to overcome these shortcomings, this paper proposes a SegNet-based DM code region extraction method.This method uses the theory of semantic segmentation to segment the object region from the image and then locate the two-dimensional code region.Experimental results show that compared with the existing methods based on neural network to locate images, segnet-based localization method is more convenient and has higher accuracy and robustness.

Keyword:SegNet,DM code, region extraction,Semantic Segmentation 

 


0引言

目前,使用二维码位置信息来进行物流仓储、无人工厂、无人码头中的无人驾驶小车的导航定位的技术已经被人们所熟知,但局限于目前已有的二维码定位方法精度较低,无法达到导航精度要求。因此导航方式多采用激光、超声波、雷达等多种方式的混合导航,其中,二维码导航多处于从属地位[1]。目前导航领域中二维码的应用仍存在诸多问题[2]。1)位置信息资源的浪费问题。2)现有二维码位置精度差,无法满足精确定位的需要。因此,本文采用一种采用自主研发的一种新编码规则生成的非标准DM码,解决了有效利用DM 码内部信息内容、减少冗余信息、高效利用条码内部位置资源的问题。

相对于其它类型导航方式来说,该导航法具有成本低廉,使用方便,且可与内容信息相融合的特性,如能提高精度,必然可以大大减少导航系统的成本。

在二维码应用中,首先要对二维码进行区域提取和粗步定位,然后再进行精确定位,而条码的区域提取技术则是实现其他功能的首要前提。2012年,天津大学提出了一种基于Gabor滤波和BP神经网络的DM码区域提取方法[3]。虽然该方法大大提高了准确率,但实验过程过于繁琐。首先需要用不同尺度不同方向的Gabor滤波器对图像进行机械能滤波提取其纹理特征,其次需要进行特征变换,使所得特征具有尺度和旋转不变性;然后利用BP神经网络按照签署特征对像素进行分类,经过形态学后,才能对条码区域进行处理。2016年,浙江大学提出了一种基于卷积神经网络的二维码定位算法[4]。该方法首先将一个完整的含有二维码的图片分块成若干个区域,并对其进行训练识别,利用卷积神经网络作为一个二分类器,对可能为二维码的区域输出为正类,对非二维码的背景区域输出为负类,最后再对二维码区域的图片进行整合,以将其还原成一个完整的二维码图片。该方法过程繁琐,需要时间冗长,且易产生误差。

文中采用了一种基于SegNet的方法对二维码区域进行提取,完成了含有目标对象的图片的语义分割。所谓语义分割,就是指机器自动从图像中分割出对象区域,并实现其内容识别[5]。该法比天津大学的所用方法更为简洁:首先该法不需添加滤波对图片进行纹理分析,其次该法不需对图片进行特征变换可直接实现定位;与浙江大学所用方法比较可知,该法不需经历将完整的含有二维码的图片先拆分再进行合成的繁杂冗长过程,降低了合成过程中的误差,大大提高了识别效率、识别准确性及鲁棒性。

1 SegNet神经网络原理

SegNet网络可以避免计算卷积以及重复存储像素块等问题,相比于传统的利用CNN卷积神经网络来做分割的网络来说,SegNet具有更高的效率。

早在2016年,SegNet网络被Badrinarayanan首次作为一种新型的深度卷积神经网络结构所提出,该网络与传统神经网络有一定的相似性,其训练方式都是通过端到端来对像素集进行分类;其不同的部分在于SegNet网络是由编码层和解码层共同组成。其中,编码层的功能主要是用来提取图像特征,利用池化操作使得图像尺寸持续缩小,在池化操作时,编码器也会存储池化操作后的位置信息,并对所有进行卷积操作后的输出数据进行归一操作,最后使用激活函数来进行激活操作。解码层即是利用上采样将编码层缩小后的图片还原成原图片大小的一个步骤。在解码的过程中,不断的从编码器中释放出所存储的位置信息,通过编码器所存储的最大池指数来对图像进行不断的补全,从而完成上采样操作。正是因为SegNet网络具有较多的层数,因此,它能够更为准确的对图像进行特征提取。SegNet网络通过加入编码层和在解码层中释放出利用已经存储过的最大池指数的方法存储的特征信息,与此同时,SegNet网络也大大提高了训练的准确率通过减少训练每层卷积层的规范化和激活操作的时间。

 

1 SegNet网络结构图

本文所用的SegNet网络结构如图1所示,其中Input表示的是输入图片,Output表示的是输出图像,其中每个颜色代表不一样的分类类别。语义分割的主要意义就在于不仅表现出图片中的物体是什么,还告知人们这个物体处于图片中哪个位置。由上图可知SegNet网络结构是一个对称的网络,由中间的池化层与上采样层作为分割线,左半部分是通过卷积来提取图片信息的高维特征,并通过池化使其变小,这个过程在SegNet训练中被称为Encoder(编码层)。右半部分是反卷积与上采样,反卷积的作用是使图像分类后特征能够得到复原,上采样的作用则是使图像变大,这个过程在SegNet中被叫做Decoder(解码层)。最后再通过Softmax,输出不同分类的最大值。以上简述即是SegNet训练中的基本原理和过程。

为验证文中提出的新型的DM码定位算法的有效性,实现不同环境中的DM码准确定位,展开了二维码识别实验,实验的具体流程图如图2所示。

 

 

 

 

 

 

 

 

 

 

 

2实验流程图

2实验用原始图像收集

为准确体现出本文中的算法对不同环境的适应性,建立了一个相对健壮的DM码的图片数据集。本数据集基本涵盖以下几种情况的DM码:

1)存在纯DM码的图片;

2)存在DM码分布位置不同,大小各异的图片;

3)存在分辨率大小不尽相同的图片;

4)存在DM码的有较为复杂背景干扰的图片;

5)存在亮度不均衡或者模糊的图片;

6)存在同时包含二维码与一维码共存的图片。

文中的图片数据集是通过分辨率为1280x1024、型号为acA1200-60gcbasler工业相机进行人工拍摄完成。一共收集了5000个图片,其中4000张图片作为训练样本,1000张图片作为测试样本。通过尽可能的保证DM码所处图片环境的复杂性和DM码本身的多样性,确保了本次数据集的健壮性。自建部分数据集如图 3所示

 

3部分图片数据集

3图像预处理技术

文中所用基于导航用非标准二维码的图像处理主要是为了过滤掉不必要的干扰信息以及得到工业应用所需要的二维码所在位置的区域块。工业相机会因二维码本身是由黑白块组成以及拍摄过程中的光照不均,对比度不高,有较大的噪声等原因而形成偏差。特别是在工业应用中,这种情况非常频繁,且易导致严重后果。因此,在实际应用中多采用预处理的方法来降低以上因素对图像识别的干扰。

在处理图像信息过程中,采用了数据化方法,即先将数据集中的图片尺寸统一为400*400,然后再进行特征标准化。

首先,计算图像均值,计算公式为

然后计算标准差,计算公式为

最后对输出的图像数据进行归一化操作,以将图片数据转换成均值为0,方差为1的新图像数据,计算公式为

采用该法既可以对输入数据起到规范作用,又可有效提高网络的训练效率以及准确率。

其中采用了直方图均衡化法来进行图像增强处理。

4基于SegNet的网络训练

4.1  网络搭建

神经网络的构建是神经网络训练中最重要的一步。一个好的神经网络的构建可以提取含有更多语意信息的图像特征,对于最终的预测有着重要的意义。文中的SegNet网络搭建如图图4所示。

 

4 网络架构图

文中,SegNet神经网络主要是作为一个二分类器,其结构示意图如图4所示。在不考虑输入层和输出层的情况下,文中所涉神经网络具有八层结构,上面4层为编码层,用于SegNet的编码过程中,用same卷积来提取特征;下面4层表示解码层,在解码过程中,卷积仍采用的是same卷积,但与一般解码过程不同的是,这里的same卷积是为了使上采样变大的图像信息更为丰富, 这样就可以通过机器学习,在解码过程中获取在池化过程中丢失的信息,这个卷积也被我们称为反卷积。该法可有效实现缺失的内容的填充,其功能与一般卷积和CNN中的卷积的基本作用都相同。

观察图4网络架构图可知,每个卷积层后都会加上一个bn层,bn层后面是ReLU激活层。 ReLU是由传统激活函数sigmoid改进得来,能很好解决梯度消失的问题。ReLU函数输出为a=max(0,z)。在以往的实验研究中发现,网的络激活层越多其图像语义分割的效果越好。

4.2 建立Segnet网络训练标签

 

图5  Segnet网络训练标签

本次训练中采用Adam作为优化参数,以及高斯分布的方式设置神经网络的初始权重。

训练中使用的损失函数为L(X,Y),公式如下所示:

其中X表示预测值,Y表示参考值,S(X,Y)表示两个模型之间的相似程度,S(X,Y)表达式为

因为有一些图片里未包含神经区域,因此可能会有空图的现象,需要对函数加入平滑值k来进行修正。

4.3 训练过程

文中整个算法都是基于MATLAB2018a版本开发,所有实验的开发和测试环境均为64位下操作系统,基于x64的处理器,IntelRCoreTMi5-7500 CPU @3.40GHz8G内存工业相机采用了分辨率为1280x1024、型号为acA1200-60gcbasler。在本次试验的训练中,样本图片为4000张,测试图片为1000张,采用随机梯度下降法(SGDM),训练50回合初始学习率为0.001,动量采用0.9L2正则系数为0.0005。训练过程如下图所示:

 

图6 Segnet网络训练过程图

4.4 实验结果及分析

本文中训练好的SegNet神经网络对于整个测试集的整体分类准确率高达为99.5%,从分类结果可以看出,该法已取得了很好的分类效果。下图展示了基于SegNet神经网络识别结果的DM码的预定位过程和SegNet神经网络对整张图片的识别结果。

 

图7 实验效果图

 

图8 实验效果图

相比于其他类型的DM码定位技术,文中提出的定位算法优点如下:

(1)定位算法的适应性和鲁棒性强。

(2)能够精确稳定的定位出DM码区域。

(3)能够识别的DM码范围广,且方法简单易实现。

5 结语

文中提出了一种基于SegNet神经网络的DM码定位算法,该算法的核心是通过SegNet神经网络来区分DM码区域和非DM码区域本文针对该SegNet神经网络建立了一个包含4000张训练图和1000张测试图的数据集,然后对其进行算法训练实验。实验结果表明,该算法对于各种复杂环境下的DM码都有较好的定位效果,可大幅提高DM码定位算法的成功率和准确性



参考文献


[1] 王视鎏,王一强.视觉引导AGV中的数字图像处理方法[J]计算机应用与软件2011.28(6):84-87

[2] Chuanhong Zhou.The study of applying the AGV navigation system based on two dimensional bar code[J] International Conference on Industrial Informatics,2016,.51:206-209

[3] 杨兆选,吴佳鹏.基于Gabor滤波和BP神经网络的二维条码区域提取[J].天津大学学报43(3):210-214

(Zhaoxuan Yang,Jiapeng Wu.2D Barcode Region Extraction Based on Gabor Filtering  and BP Neural Network[J].Journal of Tianjin University43(3):210-214)

[4] 程曙光.基于卷积神经网络的QR码定位算法研究[D][硕士学位论文]浙江.浙江大学:2016

[5] Vijay,Badrinarayanan,Alex Kendall.SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2017,12(39):2481-2495

[6] Yang Gaosheng,Liu Ningzhong,and Gao Yuan.Two-Dimensional Barcode Image Super-Resolution Reconstruction Via Sparse Representation.2013 International Conference on Information Science and Computer Applications, 978-90786-77-85-7(ISBN), 327-333.

[7] Lingling Li,Yaoquan Yang, Tao Gao.The Detection and Realization of Data Matrix Code by Accurate Locating[J].International Journal of Advanced Pervasive and Ubiquitous Computing, 6(4), 35-42,

[8] 欧彦江,袁中凡.神经网络在二维图像识别中的应用[J]中国测试技术2006,32(1):111-113

[9] Chuanhong Zhou,Xinchang Liu .The study of applying the AGV navigation system based on two dimensional bar code[J]2016 International Conference on Industrial Informatics - Computing Technology, Intelligent Technology, Industrial Information Integration2016,10(1109):206-209

[10] Meng Wang,Li-Na LiZhao-Xuan Yang.Gabor filtering-based scale and rotation invariance feature for 2D barcode

 

 

微信二维码
扫码添加微信咨询
QQ客服:1663286777
电话:137-1883-9017
收到信息将及时回复