领邦智能
领邦智能
Published on 2024-11-15 / 574 Visits
1

大模型加持下的视觉检测智能体:机理与颠覆性案例

图片1.png

10月16日,领邦智能董事长崔忠伟博士应邀参加VisionChina2024(深圳)机器视觉展暨机器视觉技术及工业应用研讨会,并发表《视觉检测大模型的机理及颠覆性案例》主题演讲,下文根据崔忠伟先生的主题演讲内容整理而成。

尊敬的各位专家、学者、企业家及工程师朋友们,下午好!

我是北京领邦智能装备股份有限公司董事长崔忠伟。今天,我演讲的题目是《视觉检测大模型的机理及颠覆性案例》。

在智能化时代,大模型已成为关键热词。常见的生成式大模型主要应用于IT层面,而今天我将介绍一种应用于OT层面的实时大模型。两者的共同特性在于其依托于大数据、大规模的训练,并能体现出智能涌现的特征。不同之处在于我们提出的OT层面的实时大模型,与生成式大模型存在显著差异。

接下来,我将汇报四个主要内容。首先,介绍视觉检测大模型;其次,探讨视觉检测大模型在硬件端的应用——即视觉智能体;第三,分析各类行业中的颠覆性案例,以证明大模型的通用性;最后,简要介绍我们公司。

图片2-rbyu.png

首先,通过这张图表来了解大模型与小模型的区别。小模型通常采用CNN结构,专为特定场景设计,每个场景对应一个模型,具有专用化的特性。而大模型则经过大量数据的预训练,在应用场景中只需少量样本(每类目标约1至5个样本,通常不超过50个样本)进行微调,即可快速适应不同场景。此微调过程无需依赖云端支持,可直接在设备端完成。总体而言,大模型是一种基础且通用的模型,具备少样本跨域泛化的显著优势,突破了传统CNN小模型的局限。

图片3-ouy6.png

大模型的训练基于超过1亿张工业缺陷图像的数据集,参数规模达到13亿。在4090 GPU上的测试速度可达100+ FPS。其核心特点在于少样本快速部署和跨领域泛化能力,具备极高的易用性。大模型能够智能覆盖各个领域的视觉检测需求,包括图像目标和缺陷识别,以及视频监控中的动作合规性检测(如生产装配过程的规范性和包装流程的完整性)。因此,大模型开创了视觉检测的统一大市场,彰显了其首要的商业价值。

其次,大模型在使用成本上展现了极大优势。小模型的交付周期通常至少为15天,甚至可能延长至一至两个月,且标注和训练成本较高。而大模型的应用将小模型的使用成本降低了约90%,显著提升了便捷性。

此外,大模型的第三大价值体现在其快速切换产线的能力上。相比小模型,大模型的换线速度提升了约100倍。

关于大模型的实现,需具备三个关键要素:首先是超过1亿张图像的数据量;其次是10亿以上的参数规模;第三是持续训练直至实现智能涌现,达到类人智能,以增强泛化能力。领邦能够实现这一目标,得益于在小模型时代已有近千台设备接入公有云,持续收集缺陷数据,积累了海量的工业图像资源。

图片4-dkvr.png

大模型的机制是通过block堆叠形成encoding和decoding结构,构成端到端的模型,仅需少量提示样本便可直接得出决策,极为便捷。以往许多小模型需要为每个相机配置一个独立模型,而大模型即使设备中有十几个相机,也只需一个模型即可处理。我们公司仅使用一个大模型,整个行业也只需一个大模型,操作简便,与小模型的概念截然不同。我们的模型已于2024年3月30日在工信部于重庆召开的大会上正式发布,主要特性为少样本的跨域泛化能力。接下来将展示该能力。

图片5-d3os.png

该视频展示了大模型在少样本条件下迁移至不同行业的能力。我们从德国公开数据集中选取了铁丝网的图像,该数据集包含五种缺陷类型。我们选择6张图像,整个过程耗时2分钟。黄色标记表示我们选择的不同缺陷类型。右侧为原图,左侧为模型对缺陷的检测效果。仅凭5张缺陷样本和1张良品样本,即可实现向该陌生领域的迁移。有些人可能会质疑大模型在训练时是否见过这些图片,答案是否定的。这正体现了其跨领域的泛化能力,标志着迁移学习的新高度。换言之,面对全新任务时,大模型只需少量提示图片即可迅速完成迁移。

图片6-mrvo.png

为了实现大模型的落地应用,我们开发了一款视觉智能体。该智能体在设计之初便将CPU、GPU、大模型及相关软件集成完备,用户只需连接相机即可使用。我们的软件基于Rust语言开发,而非传统的C类语言。众所周知,白宫曾发布报告,提倡全球减少对C语言的依赖,因Rust具备更高的内存安全性。该视觉智能体只需外接相机和光源便可立即投入使用,所有组件均已集成,使用极为便捷。

我们选择这种设计的原因在于,大模型作为通用生产力工具,若配合通用型硬件落地应用,将能够解决视觉行业中成像后的所有通用问题。视觉行业的两大难点在于成像和模型的非通用性,如今我们至少解决了模型的通用性问题。该设备支持安装4090GPU,具备700W以上的散热能力,并包含运动控制和结果执行的分选功能。

图片7-sii6.png

在此基础上,我们进一步开发了L2层和L3层。当前几乎所有工厂都依赖视觉检测,而由视觉检测产生的大量数据需要传输至ERP系统,例如MES、QMS、SPC等层级,我们称之为L3层。同时,我们希望实现集中监控,视觉智能体具备支持L2层和L3层的能力,可以通过超链接方式进行调用,非常便捷。当然,数据也可以传输至其他系统,但超链接方式更具优势。该智能体按照全球ISA95标准开发,便于与现有工厂的新系统高效集成。

图片8.png

这是L2层的界面,即Scada层。我们的视觉智能体具备一项独特优势,由于L2层和L3层均为自主开发,L2层的集中监控实现了功能穿透性。即硬件具备的所有功能在远程监控中均可实现,确保功能的完整性和一致性。

图片9.png

前面介绍了视觉检测大模型及其应用载体——视觉智能体,这些都是全新的概念。接下来将展示一些案例,这些案例大多具有高度的通用性,应用范围广泛,且具备颠覆性。许多过去难以通过小模型实现的任务,如今借助大模型已得到良好解决。案例主要分为三个方面:

第一,工业应用;

第二,装配正确性检测;

第三,过程监控(例如监控人工操作是否符合SOP文件要求)。

我们的客户群体主要包括大型甲方企业、生产线集成商(乙方)以及中小型视觉设备供应商,这些客户在各自领域中对大模型表现出浓厚的兴趣与需求。

图片10.png

该案例展示了3C行业中零件六面体的检测需求。以往该检测通常需要至少六个小模型分别处理。而现在,仅需一个大模型即可完成,且现场快速设定,仅需十几张样本。客户反馈指出,该方案对样本数量要求极低,训练速度极快。

图片11.png

这是一个轧钢检测的案例。轧钢检测具有一定的挑战性:一方面需识别极小的缺陷(如划痕),另一方面需检测较大的缺陷(如滚字印)。在此案例中,我们仅使用38张样本便完成了现场设定,过程快速高效。

图片12.png

接下来介绍一些应用更为广泛的案例,包括SMT元器件、化妆品中的口红和泡罩、左上角的集成电路、锂电池、电子烟以及注射器等。大模型作为通用的视觉检测基础模型,具备广泛的应用范围,其显著特点为少样本需求、快速设定以及跨领域的泛化能力。

接下来介绍一些装配正确性的应用案例。例如打螺丝检测,曾是视觉行业的难题。已打螺丝的孔、漏打的孔以及散热孔在外观上极为相似,过去使用小模型时通常需要手动划定区域,这一方式导致软件在更换规格时无法通用。而在多规格的生产线上,快速切换是关键需求。大模型通过对正确装配的孔位进行绿色标记,未打螺丝的孔位标记为红色,仅需一到两张样本,经过微调后便能高效完成检测任务,使装配正确性检测变得简单高效。

图片14.png

这是一个电路板点胶检测的案例。一块电路板上可能有16个需要点胶的部位,由于人工操作的不可控性,经常会出现漏打胶的情况,且完全自动化实现难度较大。为解决这一问题,我们利用大模型进行图像标注和检测效果的验证。

首先,对当前显示的电路板进行标注,该电路板共需检测16个点胶位置。我们选取了5块电路板样本,其中一块为全点胶状态,一块为无点胶状态,其余三块为部分点胶的自然状态。每块电路板从四个角度进行拍摄,共采集20张图像,并从中选择10张作为训练集。点胶状态被标记为状态1,未点胶状态标记为状态2。标注完成后保存数据,开始模型训练,整个过程耗时约5至6分钟。

训练完成后,用该模型检测电路板。通过7块电路板验证模型效果,只要四个角度中有任意一个角度未点胶,则判定该电路板为未点胶状态。该任务仅需5张PCBA样本即可快速切换,充分体现了大模型在少样本条件下的显著优势。

图片15.png

下一个案例同样涉及装配正确性检测。该案例中的对象为煤矿采掘机中的变频器和大型显示器的背板,装配过程中所有错误均能轻松检出,确保组件的准确安装。

图片16.png

该视频展示了电路板生产中的三防漆涂刷过程。当涂刷速度过快时,易产生气泡,影响电路板的防护效果。为此,我们采用大模型对刷毛的速度进行监控。该大模型仅需10张样本即可准确识别刷毛,且能够适应刷毛在不同姿态和形态下的检测需求,这是一个典型的过程监控应用案例。

图片17.png

这是大型阀门的装配过程监控。阀体首先安装在容器中,随后加入密封垫,若装配出现错误,系统会标记为“打叉”。大模型能够实现这一监控,是因为对每个装配零件仅需极少样本即可准确识别。

图片18.png

这是一个关于安全监控的案例,主要用于监控井下采煤机的牙齿、护板的工作状态及现场人员情况,确保人员行为符合安全规范,防止违规操作的发生。

图片19.png

下面展示了大模型在医学手术中的应用,通过目标识别技术实时识别血管、淋巴、器具等关键结构,辅助手术机器人精确操作。利用大规模的小样本快速建模和强大泛化能力,显著提升手术过程的智能化和安全性。

图片20.png

这是大模型在装备中的一些应用实例。图中展示了一款零部件检测设备,目前现场已部署超过70+台,全部基于大模型技术,实现了显著的经济效益。

图片21.png

综上所述,以上案例展示了大模型在三大应用领域的广泛应用:工业质检、装配正确性检测以及过程监控。

图片22.png

最后,简要介绍一下公司情况。我司成立于2016年,历经六年数据积累,并于2023年经过15个月的训练,推出了大模型及其视觉检测智能体。公司承担了国家工业视觉“卡脖子”技术攻关项目,是中央政府“揭榜挂帅”项目的入围和优胜单位,同时获评为国家级专精特新“小巨人”企业。公司拥有33项全球发明专利,并有多项著作在版权局备案。

图片23.png

如对大模型和视觉智能体感兴趣或有合作意向,欢迎扫描二维码与我们联系。

感谢大家!

图片24.png