煤矿井下暗光环境人员行为检测研究

内容来源:董芳凯 赵美卿 黄伟龙

摘要:

煤矿井下环境复杂,对部分作业现场人员行为进行检测时易出现漏检与误检问题。针对该问题,提出了一种煤矿井下暗光环境人员行为检测方法,包括暗光环境图像增强和行为检测2个部分。暗光环境图像增强基于自校准光照学习(SCI)进行改进,由图像增强网络和校准网络构成。人员行为检测通过引入DynamicHead检测、跨尺度融合模块和Focal−EIoU损失函数来改进YOLOv8n模型。SCI+网络增强后的图像作为人员行为检测模型检测的对象,完成井下暗光环境人员行为的检测任务。实验结果表明:①井下暗光环境人员行为检测方法的mAP@0.5为87.6%,较YOLOv8n提升了2.5%,较SSD,FasterRCNN,YOLOv5s,RT−DETR−L分别提升了15.7%,11.5%,0.9%,4.3%。②井下暗光环境人员行为检测方法的参数量为3.6×106个,计算量为11.6×109,检测速度为95.24 帧/s。③在公开数据集EXDark上,井下暗光环境人员行为检测方法的mAP@0.5为74.7%,较YOLOv8n提升了1.5%,表明该方法具有较强的泛化能力。

——引言——

煤矿井下人员、车辆、设备众多,存在许多安全隐患,如矿工斜靠、攀爬设备等。为了保证井下人员正确的作业行为,大部分煤矿主要通过安全员对作业人员违规行为进行巡查,并通过人工视频监控作业人员行为,但该方法存在检测效率不高、范围有限、实时性差等问题。计算机视觉检测技术为井下人员行为检测带来了变革。但煤矿井下环境复杂,煤尘多、光源少,导致部分作业现场采集到的图像存在光照不足的现象,且在井下狭长巷道中,一般成像仪器工作时易出现曝光不足、边界模糊、伪影等问题,许多潜在信息无法被图像采集系统有效感知和理解,进而导致对目标进行检测时出现漏检与误检的问题。因此,研究井下暗光环境中的图像增强和作业人员行为的检测方法,对于减少安全事故、加快采煤作业智能化发展有着重要意义。

许多专家学者对井下作业人员行为检测方法进行了研究。黄瀚等通过动态多层感知和时间卷积网络提取人体关键点特征,并引入动态注意力机制,在提高网络泛化能力的同时增加了对动作的注意力程度,但构建的数据较少,导致模型在训练过程中难以充分学习到各种行为特征。刘浩等采用YOLOv3神经网络设计了井下人员不安全行为检测系统,实现了不安全行为的识别,但准确率不高。温廷新等将迁移学习融入到残差网络,实现了矿工不安全行为的识别,且改进后的模型优于AlexNet,VGG16等模型,但矿工不安全行为仅分为跌倒和投掷2种,实际生产中不安全行为可能更加复杂多样,因此需要进一步细化不安全行为分类。李伟山等对FastRCNN算法的区域生成网络(RegionProposalNetwork,RPN)结构进行改进,同时增加特征融合技术,增强了对井下目标遮挡情况的检测能力,但该方法提高检测精度的同时会增加参数量,降低检测效率。延晓宇等对全卷积单阶段目标检测(FullyConvolutional One-Stage Object Detection,FCOS)算法进行改进,将FCOS算法中的骨干网络进行轻量化设计并采用特征金字塔结构增强网络,实现了检测精度与速度的平衡,但FCOS算法本身检测能力有限,改进后的方法检测精度也不高。ShaoXiaoqiang等通过引入通道−向量−通道注意力机制,设计新的骨干网络,采用Slim−neck结构实现了复杂环境下井下人员的高效检测,但模型的召回率较低,目标检测过程中会发生漏检问题。Xin Fangfang等通过对YOLOv8n进行改进,提出了一种实时、高效、轻量级的矿工行为检测方法,但在处理小目标时检测精度仍然不足。Wang Zheng等通过集成可变形卷积和应用偏移学习来增强细粒度特征提取,提升了模型对矿工行为特征的识别能力,但在复杂环境下(如光照不足、背景复杂)模型的鲁棒性仍需进一步优化。

针对上述问题,本文提出一种煤矿井下暗光环境人员行为检测方法。首先以自校准光照学习(SelfCalibratedIllumination,SCI)为参考,设计了SCI+网络,用于提高暗光环境下图像质量、恢复图像信息。然后通过引入Dynamic Head检测、跨尺度融合模块(Cross−Scale Feature Fusion Module,CCFM)和优化损失函数改进YOLOv8n。最后将SCI+图像增强后的高质量图像作为改进后模型检测的对象,完成井下暗光环境人员行为检测任务。

1.井下暗光环境人员行为检测网络结构

井下暗光环境人员行为检测网络包括暗光环境图像增强网络和人员行为检测网络,如图1所示,其中,k为卷积核大小,s为步长。井下采集到的现场数据往往具有对比度低、饱和度低、干扰信息多、边界模糊等不利于特征识别与定位的特点,因此,通过SCI+网络增强低光照图像的质量。人员行为检测网络是基于YOLOv8n进行改进而构建的,检测头改为DynamicHead,通过引入动态卷积和多头自注意力机制,提升模型对不同大小目标的检测能力;CCFM作为颈部结构,通过融合不同尺度的特征图来增强模型对尺度变化的适应性和对小尺度目标的检测能力;使用Focal−EIoU损失函数提高目标检测任务中边界框回归的精度和鲁棒性。

1.1SCI+网络SCI+网络结构如图2所示。首先,在SCI网络输入、输出卷积层之后引入批量归一化函数,以减少模型对初始化权重的依赖,缓解网络梯度消失的问题。然后,将原来的残差连接方式改为并行残差连接,通过不同卷积层处理输入特征,捕获多尺度或不同方面的特征信息。最后,将残差获取的多尺度融合特征与输入特征进行连接。

SCI+网络结构主要包括图像增强网络和校准网络2个部分。图像增强网络使用轻量级的卷积层来学习图像特征,并将学习后的图像特征与输入图像相加生成增强后的图像。校准网络通过自校准模型来提高增强后图像的稳定性,以进一步优化增强过程。校准网络主要由自校准模块和照明估计模块组成,如图3所示,其中g(·)为校准函数,Q(·)为照明估计函数。在训练阶段,自校准模块将校准后的结果与原始的暗光图像进行叠加,作为下一阶段照明估计的输入。而在测试阶段,单个照明估计模块可以利用训练阶段学到的知识,独立完成图像增强任务。

1)自校准模块。自校准模块的核心是通过分析每个阶段之间的关系,确保在训练过程中不同阶段的输出能够收敛到相同的状态,帮助照明估计模块更好地提升图像质量。

zt=y⊘xt(1)

st=Kθ(zt)(2)

vt=y+st(3)

式中:zt为t阶段的中间特征图,t=1,2,···,T,T为校准的阶段数量;y为低光照图像;为元素相除;xt为t阶段的输入图像;st为t阶段的校准信息;Kθ(·)为参数化函数,用于从zt中学习并提取有用的特征;vt为t阶段校准后的图像,用于下一阶段输入。

2)照明估计模块。通过学习图像的光照条件,照明估计模块能够生成平滑的照明分量,这一平滑特性确保了生成的反射分量在视觉上更加友好,从而显著提升图像的视觉质量。

ut=Hθ(vt)(4)

xt+1=vt+ut(5)

式中:ut为t阶段的残差,表示阶段照明图像和低光照图像之间的差异;Hθ(·)为映射,用于估计每个阶段的照明分量;xt+1为t+1阶段的输入图像。为了能够进行无监督训练,实现不依赖配对数据及任何数据标签的学习,针对SCI+网络设计了一组损失函数来评估图像增强的质量。损失函数由保真度损失函数和平滑损失函数构成。保真度损失函数用于衡量增强后图像与原始图像之间的相似性。平滑损失函数用于确保相邻像素之间的单调性与平滑变化关系。

Lf=1N∑Ni=1(Ii−Oi)2(6)

Ls=1N∑Ni=1(|∇XA|+|∇YA|)2(7)

Ltotal=αLf+βLs(8)

式中:Lf为保真度损失;N为图像中像素总和;Ii为原始图像的第i个像素;Oi为增强后图像的第i个像素;Ls为平滑损失;和分别为对应通道像素的水平/垂直梯度值;A为第i个像素的光照参数;Ltotal为总损失;α和β为正平衡参数。

1.1改进YOLOv8n

YOLO作为目标检测方法之一,相较于FastR−CNN,MaskR−CNN等方法,在实时性和准确性上表现出巨大的优势。虽然目前YOLO系列已经更新到YOLOv10,但在基础架构上相比于YOLOv8并未有较大改进,通过对实际检测场景和硬件条件的综合考虑,本文基于YOLOv8n进行改进。

1.1.1Dynamic Head检测

由于井下环境特殊,采集的图像往往存在灯光昏暗、粉尘遮挡、背景干扰、信息杂乱等问题,即使对图像进行增强后也难以捕捉有效信息。YOLOv8n对图像进行处理时无法对重要特征进行有效关注,极大增加了井下人员动作行为检测的难度。因此,本文引入DynamicHead替代原有的检测模块,以提高模型在复杂场景中多尺度目标检测的准确率。Dynamic Head检测过程如图4所示,首先使用骨干网络提取输入图像的特征金字塔,然后通过尺度注意力、空间注意力和任务注意力来逐步优化特征金字塔,最后将优化后的特征金字塔用于目标分类、中心回归和边框回归任务中。Dynamic Head网络结构如图5所示。

W(F)=πC(πS(πL(F)·F)·F)·F(9)

式中:W(F)为特征张量F的注意力函数;πC为任务感知;πS为空间感知;πL为尺度感知。

1.1.1跨尺度特征融合

由于井下人员行为检测系统需要布置在嵌入式装置中,在生产现场实时运行,这就要在满足硬件设备的条件下,保证系统的实时检测速度,同时还要兼顾检测精度。YOLOv8n中的特征金字塔结构通过自底向上的路径提取特征,再利用自顶向下的路径和横向连接将高层语义信息与低层细节信息融合。但特征金字塔结构对不同尺度特征的融合效果有限,导致检测系统性能下降。因此,本文采用CCFM来替代YOLOv8n中的特征金字塔结构,如图6所示。CCFM是将不同尺度的特征通过融合操作整合,以增强模型对于尺度变化的适应性和对小尺度对象的检测能力。CCFM在保证检测精度的同时可以有效减少模型的计算量和参数量。

1.1.1优化损失函数

YOLOv8n中使用的损失函数为CIoU,该函数在处理两边界框有较大重叠区域时,形状和尺度的惩罚项会导致梯度不稳定,影响模型的收敛速度和精度。因此本文采用Focal−EIoU替代原有的CIoU。Focal−EIoU从梯度的角度出发,将高质量的锚框和低质量的锚框分开,引入Focal优化边界框回归,解决任务中的样本不平衡问题,从而实现整个回归任务更快的收敛。

2实验结果及分析

2.1实验数据

井下人员行为数据来源于煤矿生产现场,分别选取不同时间、不同场景、不同光照下的图像,共计3880张,随机选取80%的图像作为训练集,剩余部分为验证集与测试集。使用标注软件Labeling对图像目标进行标注,得到目标的相关信息。检测的井下人员的行为包括行走、蹲坐、站立、操作、弯腰、倚靠、翻滚7种类型。本文所采用的实验平台设备及硬件参数见表1。采用SCI+网络对采集到的图像进行增强,不需要依赖成对的数据集或特定的标注,网络能够自适应学习相应的图像增强参数,模型训练迭代次数为200,批次大小设置为16,优化方法为Adam。井下暗光环境人员行为检测网络采用改进的轻量化YOLOv8n模型,模型训练迭代次数为300,批次大小设置为16,输入到模型中的图像尺寸为640×640×3,优化方法为SGD,其余超参数均保持默认。

2.2行为检测实验分析

为验证本文所提方法对井下人员行为识别的有效性,采用YOLOv8n与本文提出的井下暗光环境人员行为检测模型进行对比,以井下暗光环境低光照图像作为模型输入,检测目标为井下人员各类行为。部分图像的可视化检测结果如图7所示,可看出受井下光照条件的影响,环境中的检测目标与背景十分相近,难以区别,若直接使用YOLOv8n进行检测则有漏检情况发生。使用井下暗光环境人员行为检测模型进行检测时,井下人员的各种行为均可被检测出,可有效解决漏检问题。这是因为采用SCI+网络对低光照图像进行增强后,图像中的前景与背景的区分度得到改善,检测对象的轮廓与特征也更易提取。

采用目前领域内使用广泛的准确率P、召回率R、平均准确率均值(meanAverage Precision, mAP)作为评价指标。本文的mAP采用的是mAP@0.5,即IoU阈值为0.5时的mAP。

为了验证井下暗光环境人员行为检测模型的检测精度,以召回率为横轴、准确率为纵轴绘制井下人员各行为的R−P曲线,如图8所示。可看出井下暗光环境人员行为检测模型的R−P曲线与坐标轴围成的面积比YOLOv8n的大,表明井下暗光环境人员行为检测模型性能更好。行走、蹲坐、站立、操作、弯腰、倚靠、翻滚7种行为检测精度较YOLOv8n分别提高了9.5%,1.3%,1.6%,0.5%,3.5%,0.8%,1.8%,平均检测精度提高了2.5%。

为了更加直观体现井下暗光环境人员行为检测模型的优越性,从测试的数据中挑选部分绘制可视化热力图,如图9所示,其中,颜色越接近蓝色表示特征越不明显,颜色越红表示特征越显著,对井下人员的行为更容易识别。可看出在暗光环境下使用YOLOv8n进行图像检测时,热力图上蓝色区域较多,表明YOLOv8n对井下人员的行为特征关注度较低。将暗光环境下的图像经过SCI+网络处理后,使用YOLOv8n进行图像检测时,热力图上的红色区域增多,这是因为增强后的图像检测目标与背景边界轮廓变得更加清晰,YOLOv8n对井下人员行为特征的关注度有所增加。将暗光环境下的图像经过SCI+网络处理后,使用本文人员行为检测模型进行检测时,热力图上的红色区域进一步增多,这是因为使用DynamicHead将尺度、空间及任务注意力引入到人员行为检测模型中,使模型能够更好地理解上下文信息,从而更加关注井下人员的行为特征。

2.3消融实验分析

为验证人员行为检测模型中改进策略的有效性,在数据集上进行多组消融实验,结果见表2。M1模型为YOLOv8n+DynamicHead,M2模型为YOLOv8n+CCFM,M3模型为YOLOv8n+Focal−EIoU,M4模型为YOLOv8n+DynamicHead+CCFM,M5模x型为YOLOv8n+DynamicHead+Focal−EIoU,M6模型为YOLOv8n+CCFM+Focal−EIoU,M7模型为YOLOv8n+DynamicHead+CCFM+Focal−EIoU。由表2可看出,M1模型的mAP@0.5和准确率较YOLOv8n分别提高了0.2%和1.3%,模型的计算量和参数量较YOLOv8n分别增加了0.9×109和0.4×106个,这是由于Dynamic Head的引入增加了模型的复杂度;M2模型的mAP@0.5较YOLOv8n下降了1.1%,计算量和参数量较YOLOv8n分别减少了0.4×109和0.5×106个;M3模型的mAP@0.5和准确率较YOLOv8n分别提高了0.8%和2.1%;M4模型的mAP@0.5较YOLOv8n下降了0.5%,准确率上升了3.0%;M5模型的mAP@0.5和准确率较YOLOv8n分别上升了1.8%和3.4%,计算量和参数量较YOLOv8n分别增加了5.8×109和0.5×106个;M6模型的mAP@0.5较YOLOv8n下降了1.5%,准确率提升了1.2%;M7模型(本文所构建的人员行为检测模型)的mAP@0.5和准确率较YOLOv8n分别提升了2.5%和4.4%。上述实验结果表明,本文人员行为检测模型在计算量和参数量增加不大的情况下,能有效提高检测性能。

2.4图像增强分析

为验证SCI+网络对矿井下暗光环境图像的增强效果,选取当前图像增强主流算法进行对比实验,各算法图像增强结果如图10所示。可看出采用LIME[23]增强后的图像亮度依旧不足,前景与背景边界模糊,MBLLEN[24]与RetinexNet[25]导致井下暗光环境图像出现明显色彩失真,且RetinexNet使图像全局变得模糊。采用Zero−DCE++[26],SCI及SCI+实现井下暗光环境图像增强后,图像细节比较清晰,前景与背景差异较明显,但Zero−DCE++出现轻微偏色现象,SCI出现亮度过高的问题,可能会引入噪声干扰目标检测。经过SCI+网络处理后的图像视觉效果较好,体现了较自然的亮度效果和较清晰的细节。

为进一步研究图像增强对目标检测性能提升的有效性,将不同图像增强算法作用后的图像作为目标检测网络的输入,对作业人员行为进行检测,实验结果如图11所示。可看出若直接对井下暗光环境采集到的图像进行目标检测,低光照场景下作业人员难以被识别,对小目标存在较多漏检情况。采用MBLLEN,LIME和Zero−DCE++增强后的图像存在部分漏检情况且对作业人员行为识别效果一般,RetinexNet使图像细节变得模糊,因此检测效果较差且有误检情况出现。SCI可解决井下暗光环境目标检测中误检、漏检问题,且识别准确率明显提高。SCI+网络增强后图像与SCI相比亮度较自然,细节还原也较为清晰,SCI网络过度曝光影响了目标检测,SCI+网络有助于提升对多尺度目标检测性能。

为了验证SCI+网络性能的优越性,采用人员行为检测模型对各图像增强网络处理后的图像进行检测,结果见表3。可看出采用SCI+网络增强后的图像mAP@0.5较使用LIME,MBLLEN,RetinexNet,Zero−DCE++,SCI分别提高了2.0%,1.0%,2.3%,3.2%和1.7%;检测帧速率较使用LIME,MBLLEN,RetinexNet,Zero−DCE++,SCI分别提升了93.24,95.17,87.46,6.74,1.03帧/s。说明SCI+网络的性能要优于其他图像增强算法。

2.5与目前主流模型对比

为进一步表明人员行为检测模型的优越性,将其同目前常用的检测模型SSD[27],FasterRCNN[28],YOLOv5s[29],RT−DETR−L[30]进行比较,结果见表4,各模型的检测可视化结果如图12所示。

由表4可看出,人员行为检测模型的mAP@0.5较SSD、FasterRCNN、YOLOv5s、RT−DETR−L、文献[10]、文献[31]和文献[32]分别提升了15.7%,11.5%,0.9%,4.3%,0.7%,2.7%和0.3%;人员行为检测模型的计算量较SSD、Faster RCNN、YOLOv5s、RT−DETR−L、文献[31]和文献[32]分别减少264.2×109,390.3×109,4.4×109,96.7×109,0.9×109和56.4×109,较文献[10]提高了3.1×109;人员行为检测模型的参数量较SSD、Faster RCNN、YOLOv5s、RT−DETR−L、文献[31]和文献[32]分别减少了20.8×106,133.2×106,3.4×106,28.4×106,0.7×106,17.6×106个,较文献[10]增加了0.3×106个。由图12可看出,当被检测的对象为小目标时,采用SSD进行检测会出现漏检现象,其他模型都可以检测到小目标,但RT−DTER−L的检测结果与其余3种模型不一致,出现误检情况,文献[32]模型比其他模型多检测出一类行为,通过识别可知该模型也出现误检情况。Faster RCNN检测结果置信度最高,这是因为该方法采用了two-stage经典结构,但它的参数量和计算量都很大,不利于实时在线检测;对于图像中其他检测目标,检测结果显示人员行为检测模型同样具有一定的优势,检测精度高于YOLOv5s、RT−DETR−L、文献[10]模型、文献[31]模型、文献[32]模型。

2.6泛化性测试

为了验证井下暗光环境人员行为检测模型的泛化能力,在公开数据集EXDark上进行了泛化性测试。该数据集包含12类检测对象,共计7363张低光照图像,检测结果见表5,可视化结果如图13所示。泛化性实验的数据划分、参数设置及评价标准与之前保持一致。由表5可看出,井下暗光环境人员行为检测模型在EXDark数据集上的mAP@0.5达74.7%,较YOLOv8n提升1.4%,检测帧速率提升6.38 帧/s。说明井下暗光环境人员行为检测模型泛化性较强。由图13可看出,井下暗光环境人员行为检测模型在公开数据集EXDark上的性能较YOLOv8n稳定。

3结论

1)为完成井下暗光环境人员行为检测任务,在SCI网络中引入批量归一化及采用并行残差连接,构建暗光环境图像增强网络SCI+,提升暗光环境下图像质量;将Dynamic Head检测头、CCFM特征融合网络、Focal−EIoU损失函数引入YOLOv8n中,构建人员行为检测网络,提升井下人员行为检测精度。

2)图像增强实验结果表明,相较于LIME,MBLLEN,RetinexNet,Zero−DCE++,SCI,SCI+网络能够更有效地提高暗光环境下的图像质量。

3)消融实验结果表明,通过对检测模型中的检测头、特征融合网络和损失函数3个方面进行优化改进能够有效提升检测目标的准确性。

4)井下暗光环境人员行为检测方法的mAP@0.5为87.6%,模型参数量为3.6×106个,计算量为11.6×109。较SSD,Faster RCNN,YOLOv5s,RT−DETR−L在井下暗光环境人员行为检测任务中具有一定优势。

5)井下暗光环境人员行为检测方法在公开数据集EXDark上也能保持稳定的性能,表明该方法具有良好的泛化能力。

滚动至顶部