当前位置: 网站首页 技术文章 正文

微信里识别LOGO又快又准?背后有OCR模块一份功劳

来源:互联网 发布时间:2024-06-29 07:42:20
文章来源:微信AI导语LOGO作为公司或品牌的代表性标志,具有较强的识别和推广作用。本文将介绍微信扫一扫及长按识图中LOGO检测及识别的相关技术。

一、背景

扫一扫识物和长按识图上线以来,可识别的类目已经从商品扩充到了包含植物、动物、地标、菜品、汽车、名画等的各个垂类。随着用户量的上升,对于LOGO检测和识别的需求愈发强烈,LOGO作为品牌的标识,可以让用户快速认识和了解品牌,同时也能更快地接入商家的服务,进入到商家的公众号及小程序。微信里识别LOGO又快又准?背后有OCR模块一份功劳

二、难点分析

针对LOGO识别,最直接的解决思路就是检测到query图中的logo区域进行分类,或者采用检索的方式从gallery里面找到距离最近的图片,同时需要限制这个距离剔除库中不存在此LOGO的情况。但在实现过程中,我们发现LOGO识别主要存在以下难点:

1、LOGO款式多,同一商家可能具有不同款LOGO,且不同款间类间差异小;

2、LOGO既有纯文本的样式,又有纯图案的样式,还有艺术字样式;

3、LOGO更新迭代快,商家可能不定时更换LOGO,要求模型的变通性强。

三、整体解决方案

针对以上难点,我们在设计LOGO识别方案时,为了更加灵活的迭代算法,采用了检索的方式。同时,由于视觉检索模型对于文本的特征表达能力不足,为了兼顾了文本和图案类型的LOGO,我们还引入了OCR模块来进行二次验证,最终得到了如下图所示的整体解决方案。微信里识别LOGO又快又准?背后有OCR模块一份功劳
如上图所示,首先进行LOGO检测获取目标区域,再对目标进行检索找到top1检索距离小于一定阈值的结果作为预识别结果,根据预识别结果判断是否为文本,如果为文本则进行OCR识别后做二次验证,计算文本相似度,满足一定阈值条件才输出结果,如果不是文本则在直接输出结果。

3.1 LOGO检测

在进行LOGO识别前,首先需要解决的问题是在图像中检测到LOGO,我们起初尝试复用 。

四、总结与展望

本文介绍了微信扫一扫中LOGO检测及识别的相关算法。LOGO识别上线后丰富了扫一扫及识图的场景,同时也能推送相关的商家官方区或者公众号,更便于用户寻求相关服务。微信里识别LOGO又快又准?背后有OCR模块一份功劳
后续对于LOGO识别的探索还可以从更多方向进行。一方面可以在LOGO检测端引入OCR文本检测的相关算法,如引入dbnet[5]的分割监督,从而端到端得到LOGO的文本概率值,另一方面可以在识别过程中的特征表达中直接计算预测文本与top1的文本相似度。
相关教程