为深化行业交流,拓宽学术视野,丰富信息交流形式,更好地满足读者需求,《农业机械学报》创立“专题报道+融媒体出版”的出版模式:原综述栏目将不定期升级为专栏,每期专栏包括由该期专栏主编撰写的综述论文和多篇与该专栏主题相关的研究性论文;采用“纸媒出版+专栏主编视频讲座”的复合形式,丰富科研成果交流形式,深化科研成果交流内容。2025年第1期为多模态融合技术专栏,专栏主编为中国农业大学李道亮教授。

观看更多

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    李道亮,赵晔,杜壮壮.农业领域多模态融合技术方法与应用研究进展[J].农业机械学报,2025,56(1):1-15. 

    DOI:10.6041/j.issn.1000-1298.2025.01.001

    摘要:多模态融合技术通过结合多源数据,可以克服单一模态的局限性。近年来,传感器以及遥感技术的发展为作物监测提供了更加丰富的数据源,光谱数据、图像数据、雷达数据以及热红外数据被广泛应用于作物监测中。通过利用计算机视觉技术以及数据分析方法,可以从中获取作物的表型参数、理化特征等信息,从而有助于评估作物的生长状况、指导农业生产管理。现有研究多数是基于单一模态数据展开,而单一模态的数据仅有一种类型的输入,缺乏对整体信息的理解,且容易受到单模态噪声的影响;部分研究虽然采用了多模态融合技术,但仍未能充分考虑模态间的复杂交互关系。为了深入分析多模态融合技术在农业领域应用的潜力,本文首先阐述了农业领域中多模态融合的先进技术与方法,重点梳理了多模态融合技术在作物识别、性状分析、产量预测、胁迫分析及病虫害诊断领域中的应用研究成果,分析了多模态融合技术在农业领域中存在的数据利用程度低、有效特征提取难、融合方式单一等问题,并对未来发展提出展望,以期通过多模态融合的方法推动农业精准管理、提高生产效率。
    关键词:多模态融合;传感器;遥感技术;作物监测;计算机视觉;农业精准管理
    李道亮,李万超,杜壮壮.基于音视频信息融合与Self-Attention-DSC-CNN6网络的鲈鱼摄食强度分类方法[J].农业机械学报,2025,56(1):16-24.

    DOI:10.6041/j.issn.1000-1298.2025.01.002

    摘要:摄食强度识别分类是实现水产养殖精准投喂的重要环节。现有的投喂方式存在过度依赖人工经验判断、投喂量不精确、饲料浪费严重等问题。基于多模态融合的鱼类摄食程度分类能够综合不同类型的数据(如:视频、声音和水质参数),为鱼群的投喂提供更加全面精准的决策依据。因此,提出了一种融合视频和音频数据的多模态融合框架,旨在提升鲈鱼摄食强度分类性能。将预处理后的Mel频谱图(Mel Spectrogram)和视频帧图像分别输入到Self-Attention-DSC-CNN6(Self-attention-depthwise separable convolution-CNN6)优化模型进行高层次的特征提取,并将提取的特征进一步拼接融合,最后将拼接后的特征经分类器分类。针对Self-Attention-DSC-CNN6优化模型,基于CNN6算法进行了改进,将传统卷积层替换为深度可分离卷积(Depthwise separable convolution,DSC)来达到减少计算复杂度的效果,并引入Self-Attention注意力机制以增强特征提取能力。实验结果显示,本文所提出的多模态融合框架鲈鱼摄食强度分类准确率达到90.24%,模型可以有效利用不同数据源信息,提升了对复杂环境中鱼群行为的理解,增强了模型决策能力,确保了投喂策略的及时性与准确性,从而有效减少了饲料浪费。
    关键词:鲈鱼;摄食强度分类;多模态融合;Self-Attention-DSC-CNN6
    张领先,丁俊琦,陈菲菲,李宜滨,张一丁.基于电子病历多模态数据的作物病害多元场景处方推荐方法研究[J].农业机械学报,2025,56(1):25-36,46.
    DOI:10.6041/j.issn.1000-1298.2025.01.003

    摘要:针对作物品种及病害种类繁杂、样本数据严重不平衡、处方类别多样及数据多模态等特点和难点,本文基于电子病历多模态数据整合,开展面向多样化、可拓展和多模态3种应用场景需求的作物病害处方推荐方法研究。针对常见病害多样化处方推荐应用场景,基于CdsBERT-RCNN和诊断推理构建了作物病害多样化处方推荐模型,提升了面向32种常见病害的诊断准确度及处方推荐的多样化水平;针对未训练少见病害和新添处方应用场景,基于MC-SEM和语义检索构建了作物病害可拓展处方推荐模型,提升了语义匹配准确性和案例库检索速度,实现对未训练病害的处方推荐功能;针对多种模态信息采集和输入应用场景,基于BATNet多层特征融合构建了多模态作物病害处方推荐模型,提升了多模态数据输入的处方推荐性能。实验结果表明,CdsBERT-RCNN模型对32种常见病害的诊断准确率达到85.65%,F1值达到85.63%;不同完整性输入测试中,仅输入症状信息即可达到81.19%的准确率,而添加环境信息和作物信息分别使准确率进一步提高1.65、3.61个百分点;MC-SEM模型对电子病历语义匹配任务达到皮尔森相关系数86.34%和斯皮尔曼相关系数77.67%;封闭集和开放集上处方推荐准确率分别达到88.20%和82.04%,验证了模型对未训练病害的推荐能力;BATNet对于多模态输入处方推荐任务的准确率和F1值达到98.88%和98.83%;应用场景分析和测试验证了模型在不完整模态(纯文本或纯图像)和不完整信息输入(作物、环境、症状)情况下泛化能力。该研究为数字化赋能作物病害防治决策提供了新的思路。
    关键词:作物病害处方推荐;自然语言处理;语义检索;多模态融合;电子病历
    宋道一,罗升,朱玉华,童勤,王红英,王粮局.基于多源图像和环境信息融合的规模化养殖蛋鸡体温测量方法[J].农业机械学报,2025,56(1):37-46. 
    DOI:10.6041/j.issn.1000-1298.2025.01.004

    摘要:规模化蛋鸡养殖一直以来都面临着蛋鸡健康状态不易评估、疫病无法有效预防等问题,鸡群健康监测对于蛋鸡养殖业的意义日渐显著。蛋鸡作为恒温动物,其体温是评估健康状态的重要指标。本研究以叠层笼养蛋鸡为研究对象,提出了一种融合多源信息的蛋鸡体温测量方法。首先对热红外相机进行温度漂移校正和距离校正,以提高相机的测量精度。将热红外图像与采集的近红外图像和深度图像进行像素级配准,使用YOLO v8n目标检测网络对融合的多源图像进行蛋鸡头部检测,检测结果AP50为97.0%,AP50-95为76.1%。然后根据环境温度和蛋鸡头部距离信息对蛋鸡头部热红外图像进行温度漂移校正和距离校正,提取校正后图像的温度特征点计算蛋鸡头部温度。基于环境温度、环境相对湿度、环境风速、光照强度和蛋鸡头部温度构建了蛋鸡体温预测数据集,利用机器学习算法预测蛋鸡体温。其中随机森林算法在蛋鸡体温预测中表现最好,R2为0.696,RMSE为0.246℃。本研究为实现准确、无扰动地测量规模化蛋鸡养殖场的鸡只体温提供了参考。
    关键词:蛋鸡;规模化养殖;测温;热红外图像;YOLO v8n
    郝宏运,姜伟,罗升,孙宪法,王粮局,王红英.基于彩色与热红外图像信息融合的肉鸡死鸡识别方法[J].农业机械学报,2025,56(1):47-55,64.

    DOI:10.6041/j.issn.1000-1298.2025.01.005

    为了提高规模化肉鸡养殖场中肉鸡死鸡识别的精度,基于彩色图像和热红外图像,分别提出了基于两阶段与单阶段的肉鸡死鸡检测方法。在两阶段方法中,首先使用YOLO v11-seg网络对彩色图像中肉鸡进行分割,获取肉鸡掩膜坐标;然后提取单只肉鸡热红外图像,使用YOLO v8-cls分类网络对单只肉鸡热红外图像进行分类。在单阶段方法中,基于彩色图像和配准热红外图像分别构建了G通道替换融合图像、加权融合图像、小波变换融合图像以及频域变换融合图像,使用多源融合图像数据集基于YOLO v11s目标检测网络构建了肉鸡死鸡检测模型。结果表明,两阶段肉鸡死鸡检测方法中,肉鸡实例分割平均精确率为94.2%,单只肉鸡热红外图像分类准确率为99.4%。单阶段肉鸡死鸡检测方法中,基于小波变换融合图像构建的肉鸡死鸡检测模型获得了最高的检测精度,检测平均精确率为93.0%。两种方法相比,单阶段检测方法在公共测试集上精确率更高,为92.3%,推理速度更快(6.1 ms/f),单模型部署更加简单。对肉鸡热红外图像温度分布分析表明,低周龄肉鸡与高周龄肉鸡的体表温度分布具有明显差异。提出的肉鸡死鸡检测方法,能够在高密度养殖下的恶劣成像环境中对肉鸡死鸡实现准确识别,为其他畜禽死亡检测提供了技术参考。
    关键词:肉鸡死鸡;热红外图像;彩色图像;图像配准;YOLO v11
    蒋婷婷,徐澳,吴飞飞,杨帅,何进,辜丽川.基于“图像-文本”间关联增强的多模态猪病知识图谱融合方法[J].农业机械学报,2025,56(1):56-64. 

    DOI:10.6041/j.issn.1000-1298.2025.01.006

    摘要:传统的猪病防治主要依赖于人工经验,很可能因为人工疏忽存在疾病漏诊。为此,构建一个多模态猪病知识图谱,帮助管理者更好地理解猪只间的关联关系,为后续有效识别潜在的疾病传播路径和异常情况提供良好的数据基础。首先,从不同来源获取猪病数据,经过知识抽取以及图像匹配后初步构建两个多模态猪病知识图谱;其次,提出基于“图像-文本”间关联增强的多模态融合方法,利用多头注意力机制学习图像与文本之间的语义关联,通过减少猪病视觉模态模糊问题带来的负面作用,以增强猪病实体的向量表征;最后,基于对实体向量表征相似度的计算,融合两个多模态数据集中的猪病实体,以形成一个知识完备性更高的猪病知识图谱。实验表明,本文提出的多模态融合方法在猪病实体对齐任务上取得了优异的性能,相较于现有方法,对齐准确性(Hits@1)提升0.033,在通用数据集DBPZH-EN、DBPFR-EN、DBPJA-EN上进行实验验证,对齐准确性分别提升0.152、0.236、0.180,证明了该方法在多模态知识图谱融合方面的有效性。
    关键词:猪病;多模态知识图谱;多模态融合;实体对齐
    林洁雯,陈建.基于多源数据与丰度信息融合的森林生物量估算研究[J].农业机械学报,2025,56(1):65-73. 

    DOI:10.6041/j.issn.1000-1298.2025.01.007

    摘要:森林是维持碳平衡的重要组成部分,精确的森林生物量探测对环境改善和相关政策制定均有重要的推动作用。本文探索了将多源数据及丰度信息融合分析实现森林生物量反演。首先,采用MOPSOSCD获取研究区域的端元束,并获得每组树木端元的丰度信息,然后在Landsat 8 OLI及ASTGTM DEM中提取单波段因子、植被指数、地形因子、纹理特征等46个指标,测试融合丰度前后模型拟合效果。通过多元线性回归和BP神经网络模型进行生物量反演试验发现,采用多元线性回归模型时,优化前生物量均方根误差(RMSE)和决定系数(R2)分别为41.09 mg/hm2、0.40,优化后最优RMSE和R2分别为38.66 mg/hm2、0.44。采用BP神经网络模型时,优化前生物量RMSE和R2分别为32.73 mg/hm2、0.56,最优RMSE和R2分别为32.07 mg/hm2、0.57。添加丰度后BP神经网络模型具有最优反演效果。通过试验验证了MOPSOSCD算法提取端元束对应的丰度在提升模型生物量反演精度的有效性。同时,试验证明端元的提取精度越高,对应模型生物量反演效果越好。
    关键词:多源数据融合;森林生物量;端元束;混合像元分解;反演
    张鹏,杜东峰,李爽,单东日,陈振学.基于视觉触觉双重迁移学习的番茄成熟度检测方法[J].农业机械学报,2025,56(1):74-83.

    DOI:10.6041/j.issn.1000-1298.2025.01.008

    摘要:针对当前自动化采摘过程中仅依赖视觉技术无法准确识别番茄成熟度的问题,提出了一种基于视觉触觉双重迁移学习的番茄成熟度检测方法。该方法首先采用视觉触觉双重迁移学习融合算法作为特征提取融合模块,解决无法有效提取番茄特征信息的问题。其次,将软参数共享-多标签分类方法作为分类模块,通过增加不同分类任务之间的关联性,避免出现过拟合的现象。本文主要针对成熟后为红、黄果等单一颜色的番茄品种,并在新开发的视觉触觉数据集进行实验研究。实验表明,软参数共享-多标签检测模型参数量为1.882×107,成熟度AUC分值达到0.977 3,对比不确定性加权损失、自适应硬参数共享、十字绣网络和软参数共享等检测模型,参数量分别下降3.08×106、6.16×106、3.08×106和3.08×106,成熟度AUC分值分别提高0.017 5、0.017 9、0.026 7和0.008 9。这表明该方法在一定程度上提高了自动化采摘过程中对番茄成熟度的检测能力,为番茄成熟度检测问题提供了一种有效的解决方法。
    关键词:番茄成熟度;机器视觉;机器触觉;双重迁移学习;软参数共享多标签
    陆声链,李沂杨,李帼,贾小泽,鞠青青,钱婷婷.基于RGB与深度图像融合的生菜表型特征估算方法[J].农业机械学报,2025,56(1):84-91,101. 

    DOI:10.6041/j.issn.1000-1298.2025.01.009

    摘要:采用自动化手段对植物生长过程中的表型特征进行精准测量对于育种和栽培等应用具有重要意义。本文围绕工厂化生菜种植中的表型特征无损精准检测需求,通过融合深度相机采集的RGB图像和深度图像,利用改进的DeepLabv3+模型进行图像分割,并通过双模态回归网络对生菜表型特征进行估算。本文改进的分割模型的骨干网络由Xception替换为MobileViTv2,以增强其全局感知能力和性能;在回归网络中,提出了卷积双模态特征融合模块CMMCM,用于估算生菜的表型特征。在包含4个生菜品种的公开数据集上的实验结果表明,本文方法可对鲜质量、干质量、冠幅、叶面积和株高共5种生菜表型特征进行估算,决定系数分别达到0.922 2、0.931 4、0.862 0、0.935 9和 0.887 5。相较于未添加CMMCM和SE模块的RGB和深度图的表型参数估计基准ResNet-10(双模态),本文改进的模型决定系数分别提高2.54%、2.54%、1.48%、2.99%和4.88%,单幅图像检测耗时为44.8 ms,说明该方法对于双模态图像融合的生菜表型特征无损提取具有较高的准确性和实时性。
    关键词:生菜;表型估算;模态融合;分割模型;RGB图像;深度图像
    汤文权,王巧华,张浩,杨烝,范维.基于多模态信息融合的皮蛋溏心沙心分类方法[J].农业机械学报,2025,56(1):92-101.

    DOI:10.6041/j.issn.1000-1298.2025.01.010

    摘要:溏心皮蛋与沙心皮蛋有着各自的口感和味道,均有各自受众,目前只能根据腌制时间来判断是溏心皮蛋还是沙心皮蛋,而这种方法不仅需要丰富的经验且误判比例较高。为了解决这一问题,本文设计了皮蛋红外图像和可见/近红外光谱采集装置,以及配套的溏心皮蛋和沙心皮蛋的分类模型。根据采集到的红外图像数据,在ResNet18网络添加MLCA(Mixed local channel attention)模块,得到的改进模型ResNet_MLCA实现了溏心皮蛋和沙心皮蛋的分类,准确率为95.0%。根据采集到的可见/近红外光谱数据,基于一维卷积设计了一维残差模块用于可见/近红外光谱数据的特征提取和分类,其对溏心皮蛋和沙心皮蛋分类准确率也达到95.0%。为了进一步提高模型检测准确率,将ResNet_MLCA模型所提取的红外图像特征和1D_ResNet所提取的可见/近红外光谱特征进行融合,得到的融合模型ResNet_OP对溏心皮蛋和沙心皮蛋分类准确率达到98.3%。研究成果提供了一种更低计算成本、更高准确率的溏心皮蛋和沙心皮蛋分类模型,对于指导皮蛋生产和提升皮蛋品质具有重要意义。
    关键词:皮蛋;多模态信息融合;ResNet;红外图像;可见/近红外光谱;溏心沙心
    任广鑫,高钰敏,张雨茹,卫志辰,宁井铭,张正竹.基于电子舌与近红外光谱融合的滇红工夫红茶滋味品质评价[J].农业机械学报,2025,56(1):102-109. 

    DOI:10.6041/j.issn.1000-1298.2025.01.011

    摘要:茶叶滋味是评价茶叶品质的关键指标之一,也是茶叶分级和市场定价的关键因素。提出基于电子舌和近红外光谱多模态融合技术的不同等级滇红工夫红茶样品滋味品质快速评价方法。利用蚁群优化(Ant colony optimization, ACO)算法得到的味觉特征数据,建立支持向量机(Support vector machine, SVM)的等级预测模型。以近红外光谱仪采集的样本光谱为特征,利用粒子群算法、灰狼优化算法、模拟退火算法和ACO等特征选择方法以及极限学习机、偏最小二乘法判别分析和SVM等分类算法建立了等级判别模型。研究结果显示,采用多模态融合技术对电子舌味觉特征和光谱特征进行总和特征融合,可建立有效的滇红工夫红茶品质等级的融合判别模型。与单一特征数据模型的预测性能相比,基于融合数据的SVM模型判别准确率更高。结果表明,基于融合数据的SVM最佳预测模型正确判别率为94.42%。可见,特征数据的融合能够更全面地反映待测样品的内在属性,基于电子舌和近红外光谱的融合技术对于评价滇红工夫红茶品质具有良好的应用前景。
    关键词:工夫红茶;滋味品质;电子舌;近红外光谱;多模态融合

    点击扫码分享至微信