网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer

0
分享至

本文简要介绍一篇ECCV 2022的Oral论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 该论文首次探索了一个新的更具挑战性的任务:艺术文字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。考虑到艺术字的特殊性,如字符形变大、字体复杂多样、字符间连笔与重叠严重等问题,文中引入角点图作为一种鲁棒的表示来捕获字符的结构不变性特征,同时设计了一个字符对比损失函数来隐式地学习每一类字符的共性特征。实验结果表明了该方法在艺术字识别任务中的优越性,同时,在一些模糊和透视文字数据集上也达到了最佳性能。

论文链接: https://arxiv.org/abs/2208.00438 代码和数据集链接: https://github.com/xdxie/WordArt

一、研究背景

艺术字是一种由设计师或艺术家精心设计的美化文字,由各种风格的字体结合文字效果,同时融合背景元素而形成的。艺术字广泛出现在广告、标语、杂志、贺卡、展览中。然而,艺术文字识别是一个被忽略的却极具挑战性的任务:

  1. 字符外观随着不同的字体、艺术设计效果和形变而产生极大的变化;

  2. 字符间存在很多复杂的连接和重叠,使得识别过程很难关注到每一个独立的字符或笔画;

  3. 艺术字设计往往融合了背景元素,导致识别受背景干扰严重。

然而,现有的场景文字识别模型很难直接胜任这项任务,规则文字识别方法无法处理各种形变和艺术效果,基于矫正的方法只能处理文本行形变而非字符形变,基于注意力的方法无法获得艺术字符的准确位置。手写文字识别模型所处理的场景虽然存在各种字体和连笔,但其背景十分单一且没有艺术特效。因此,有必要设计模型以学习更加鲁棒的、更具表示性的视觉特征。

图1:WordArt数据集中不同类型的艺术字示例

二、研究动机

鉴于上述问题,本文从三个层面建模图像特征。

1.字符内部局部特征:为了显式地建立字符的不变性特征,文中引入角点来抑制外观和形变,同时利用角点图的离散性切断字符间的连接和覆盖,利用稀疏性抑制背景干扰。

图2:角点检测可视化,上面为艺术字图像的角点检测结果,下面为单个字符“M”的角点,虽然外观不同,但结构相近

2.字符级特征同一种字符的不同实例间巨大的视觉差异导致它们的特征在特征空间中分散分布,为了隐式地学习每一类字符的共性特征表示以提高字符识别性能,有必要让同类字符实例在特征空间中聚集,让不同类的实例彼此远离,因此本文设计了一个基于对比学习的损失函数实现这一目标。

3.图像级的全局特征:由于全局特征对文字识别任务至关重要,模型可以从上下文视觉和语义信息中推理出当前字符,因此本文引入Transformer模型建模艺术字图像的全局特征。


三、方法简述

给定一张图像,首先利用一个角点检测器生成一张角点图,然后分别送入两层卷积网络得到初级特征。一方面,图像的特征将通过多头自注意力机制进一步建模全局特征,另一方面,角点图的特征将通过多头交叉注意力机制与图像全局特征融合。编码器的输出和字符序列Embedding输入Transformer解码器获得特征序列,最终应用两个线性层分别计算两个损失。

图3:CornerTransformer的整体结构,由一个角点引导的编码器和一个Transformer解码器组成,由两种不同模态的表示作为输入。CE Loss是交叉熵损失,CC Loss是提出的字符对比损失函数。1.角点引导的编码器

通常,对于一个特定字符,无论其外观发生怎么的变化,该字符的最关键的角点总是可以被检测到,而且角点之间形成的结构关系也总是相近的。这些点是图像中包含视觉信息最丰富的的位置。因此,本文利用角点图作为辅助输入提供一个不变性视觉特征。

具体地,对于输入图像,模型使用一个经典的角点检测器,Shi-Tomasi检测器生成角点图,该检测器改进了Harris Detector,可以提供更高质量更稳定的角点结果。角点图是一个和图像大小一致,单通道的稀疏矩阵,由大量0和少量1构成,其中值为1的位置表示该位置为角点。获得角点图后,考虑到角点间存在联系,首先使用卷积层建模角点之间的局部相关性,随后将角点和图像特征进行融合。文中采用了一种基于角点查询的交叉注意力机制,将图像特征作为Key和Value,将角点特征作为Query:

该方式可以让角点自动寻找它所感兴趣的图像特征点,让模型将更多的注意力集中于字符的位置。例如,对一个文本图像中的字符“A”,它的顶点的尖端位置更倾向于关注该字符的其他位置,而不是图像中的其他字符。

图4表明,引入该机制后,编码器可以准确地关注到每个字符的位置,尽管存在形变、连笔、弯曲等挑战,更重要的是,有时还可以关注到更加细粒度的特征比如字符笔画信息,尽管并没有提供任何字符级或笔画级的标注。

图4:编码器输出特征图可视化。第一行:输入图像;第二行:Baseline特征图;第三行:基于Baseline引入角点查询交叉注意力机制特征图2.字符对比损失

艺术文字中同类字符的不同实例差异巨大,有必要在训练过程中为每一类字符学习一种统一的表示。受对比学习思想的启发,本文提出了一个字符对比损失(CC Loss),简言之,对于一个Minibatch中的一个字符,它的正样本为该Minibatch中与它同类别其他字符,负样本为其他不同类别的字符:

则模型完整的优化目标为:

图5表明,字符对比损失可以在特征空间中将每一类聚在一起,将不同类分离。

图5:编码器输出的字符特征分布
四、WordArt数据集

为了评估不同方法的艺术字识别性能,本文构建了一个艺术字识别数据集,包含6316张艺术字图像,其中训练集4804张,测试集1511张。图像来自海报、贺卡、封面、手写字等各种场景。

图6:WordArt数据集统计信息,(a) 包含不同文本长度的图片数量 (b) 数据集中全部字符的频率分布
五、实验结果1.消融实验

为了验证模型中每一部分设计的有效性,文中实施了四组实验,分别验证角点图的有效性、不同角点检测器对性能的影响、不同融合策略的影响以及字符对比损失中超参数的影响。实验结果表明,在去掉角点分支且维持参数量不变的情况下、以及把角点分支的输入换成其他输入时,都会造成性能损失;使用不同的角点检测器会对结果造成轻微差异,但都好于不使用角点的情况,而且模型对角点检测的质量具有一定的鲁棒性;传统常用的融合方式并不能充分发挥角点的作用,而角点查询机制可以显著改善模型性能;字符对比损失可以显著改善识别性能,但不同的超参数对该损失函数的影响较大,文中选取了一组近似最优的参数设置。

2.艺术字识别结果

文中对比了CornerTransformer与若干代表性的文字识别方法,得益于基于角点的设计和提出的损失函数,该方法实现了最佳的识别准确率。由图7可以看出,一些困难的样例也可以被成功识别,如包含复杂字体、连笔、极度弯曲和形变的艺术字。

图7:WordArt数据集上的定性识别结果。每一张图下面依次是ABINet-LV的结果,本文使用的Baseline结果,CornerTransformer的结果3.场景文字识别结果

为了进一步验证CornerTransformer的泛化性,本文在6个常用场景文字识别数据集上对比了十几种方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上达到了SOTA的性能,这些数据集的共性是模糊、噪声严重、图像质量差,但是,基于梯度的角点检测对这些因素的干扰是鲁棒的。


六、总结

本文致力于艺术字识别这个新的挑战性任务,并提供了一个WordArt数据集。为了解决该任务面临的难点,作者引入了角点图作为一种鲁棒的表示,并设计了角点查询交叉注意力机制来让模型实现更准确的字符注意力。 文章还提出了一个字符对比损失函数,来学习字符的不变性特征。实验结果表明了本文方法在艺术字和不规则、低质量场景文字识别中的优越性。作者希望WordArt数据集能够激励更先进的文字识别模型的出现,基于角点的设计可以为其他有挑战的识别任务提供灵感。

相关文献

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.
[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.
[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.
[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.
[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

公众号:【CSIG文档图像分析与识别专委会】 作者:谢旭东

Illustration by Pixel True from IconScout

-The End-

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨2点,郑钦文再战斯瓦泰克!第8次面对强敌,力争新突破

凌晨2点,郑钦文再战斯瓦泰克!第8次面对强敌,力争新突破

全景体育V
2025-03-13 09:07:17
岛内叫嚣“立即备战”并恢复军事审判制度,统一荷花将铺满台海

岛内叫嚣“立即备战”并恢复军事审判制度,统一荷花将铺满台海

书中自有颜如玉
2025-03-13 15:08:30
调查发现:老年人若经常喝小米粥,用不了多久,身体或有4个改善

调查发现:老年人若经常喝小米粥,用不了多久,身体或有4个改善

奇妙的本草
2025-03-08 18:00:03
美国空军已经将两架无人驾驶战斗机原型机正式指定为战斗机

美国空军已经将两架无人驾驶战斗机原型机正式指定为战斗机

cnBeta.COM
2025-03-11 07:39:06
新巴铁诞生了?这国对世界宣告:中国若有难,自己定当赴汤蹈火!

新巴铁诞生了?这国对世界宣告:中国若有难,自己定当赴汤蹈火!

小lu侃侃而谈
2025-02-16 16:40:24
有一个男性朋友总想啪啪我怎么办?网友:别惯他,直接撅回去!

有一个男性朋友总想啪啪我怎么办?网友:别惯他,直接撅回去!

美好客栈大掌柜
2025-03-14 00:10:03
美论坛:为什么中国人如此害怕印度军队?看看这些就知道了

美论坛:为什么中国人如此害怕印度军队?看看这些就知道了

文雅笔墨
2025-03-12 15:28:55
丈夫性欲高,她约前男友山上野战,男友脱光衣服找刺激,结果傻眼

丈夫性欲高,她约前男友山上野战,男友脱光衣服找刺激,结果傻眼

胖胖侃咖
2024-07-30 08:00:08
央行:为推动经济持续回升向好营造良好的货币金融环境

央行:为推动经济持续回升向好营造良好的货币金融环境

界面新闻
2025-03-13 17:28:58
外置雷电显卡为啥火不起来?厂商吹牛十年,真相是一地鸡毛!

外置雷电显卡为啥火不起来?厂商吹牛十年,真相是一地鸡毛!

小兔子发现大事情
2025-03-13 13:32:47
甜蜜赛程开启,火箭或将重返西部第二,越过掘金可创造10连成就

甜蜜赛程开启,火箭或将重返西部第二,越过掘金可创造10连成就

拾叁懂球
2025-03-13 21:01:40
台媒爆料了S家如今的状态,可能也是迟迟没有下葬大S的重要原因

台媒爆料了S家如今的状态,可能也是迟迟没有下葬大S的重要原因

香橙娱乐汇
2025-03-14 00:16:12
欧美惊现“Let me look look”中文直译,老外:这该死的东方效率

欧美惊现“Let me look look”中文直译,老外:这该死的东方效率

笑熬浆糊111
2025-03-10 00:05:37
云南近期天气特点:雨、雪、雾再加上大风

云南近期天气特点:雨、雪、雾再加上大风

开屏新闻客户端
2025-03-13 19:15:06
古力娜扎路人镜头下屁股又扁又平,以前翘臀去哪了?难道都假的?

古力娜扎路人镜头下屁股又扁又平,以前翘臀去哪了?难道都假的?

娱乐领航家
2025-03-10 18:38:24
大连楼市来势汹汹,大连高新园区某小区房价突破8000元

大连楼市来势汹汹,大连高新园区某小区房价突破8000元

有事问彭叔
2025-03-13 13:55:45
逆袭《阿凡达2》!《哪吒2》冲击全球前三引爆影坛

逆袭《阿凡达2》!《哪吒2》冲击全球前三引爆影坛

二月侃事
2025-03-13 11:26:21
NBA历史第二重球员去世!曾是巴克利加内特队友 还效力过福建男篮

NBA历史第二重球员去世!曾是巴克利加内特队友 还效力过福建男篮

罗说NBA
2025-03-13 07:18:11
全球便利店之王跌落神坛!8万门店遭并购,三招昏招毁掉百年基业

全球便利店之王跌落神坛!8万门店遭并购,三招昏招毁掉百年基业

爱看剧的阿峰
2025-03-14 03:05:28
在中芯国际当了16年董事的人要出任英特尔CEO了!

在中芯国际当了16年董事的人要出任英特尔CEO了!

挖贝网
2025-03-13 19:18:10
2025-03-14 04:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2076文章数 592关注度
往期回顾 全部

科技要闻

传腾讯向英伟达采购数十亿元规模H20芯片

头条要闻

普京:俄同意停火30天建议 或将与特朗普讨论落实问题

头条要闻

普京:俄同意停火30天建议 或将与特朗普讨论落实问题

体育要闻

奇怪的点球大战又增加了 但赢的人始终不变

娱乐要闻

金秀贤公司原本要求金赛纶赔70亿

财经要闻

中国央行:择机降准降息

汽车要闻

宾利限量版Batur Black Rose 3D打印玫瑰金彰显奢华

态度原创

健康
教育
艺术
房产
军事航空

痛经?不孕不育?妇科问题不再忧心

教育要闻

难倒X等于8不对吗?孩子和家长都糊涂了

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

生猛!有民企正狂入海南旧改!

军事要闻

F-35战机陷入“一键关机”疑云

无障碍浏览 进入关怀版