网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer

0
分享至

本文简要介绍一篇ECCV 2022的Oral论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 该论文首次探索了一个新的更具挑战性的任务:艺术文字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。考虑到艺术字的特殊性,如字符形变大、字体复杂多样、字符间连笔与重叠严重等问题,文中引入角点图作为一种鲁棒的表示来捕获字符的结构不变性特征,同时设计了一个字符对比损失函数来隐式地学习每一类字符的共性特征。实验结果表明了该方法在艺术字识别任务中的优越性,同时,在一些模糊和透视文字数据集上也达到了最佳性能。

论文链接: https://arxiv.org/abs/2208.00438 代码和数据集链接: https://github.com/xdxie/WordArt

一、研究背景

艺术字是一种由设计师或艺术家精心设计的美化文字,由各种风格的字体结合文字效果,同时融合背景元素而形成的。艺术字广泛出现在广告、标语、杂志、贺卡、展览中。然而,艺术文字识别是一个被忽略的却极具挑战性的任务:

  1. 字符外观随着不同的字体、艺术设计效果和形变而产生极大的变化;

  2. 字符间存在很多复杂的连接和重叠,使得识别过程很难关注到每一个独立的字符或笔画;

  3. 艺术字设计往往融合了背景元素,导致识别受背景干扰严重。

然而,现有的场景文字识别模型很难直接胜任这项任务,规则文字识别方法无法处理各种形变和艺术效果,基于矫正的方法只能处理文本行形变而非字符形变,基于注意力的方法无法获得艺术字符的准确位置。手写文字识别模型所处理的场景虽然存在各种字体和连笔,但其背景十分单一且没有艺术特效。因此,有必要设计模型以学习更加鲁棒的、更具表示性的视觉特征。

图1:WordArt数据集中不同类型的艺术字示例

二、研究动机

鉴于上述问题,本文从三个层面建模图像特征。

1.字符内部局部特征:为了显式地建立字符的不变性特征,文中引入角点来抑制外观和形变,同时利用角点图的离散性切断字符间的连接和覆盖,利用稀疏性抑制背景干扰。

图2:角点检测可视化,上面为艺术字图像的角点检测结果,下面为单个字符“M”的角点,虽然外观不同,但结构相近

2.字符级特征同一种字符的不同实例间巨大的视觉差异导致它们的特征在特征空间中分散分布,为了隐式地学习每一类字符的共性特征表示以提高字符识别性能,有必要让同类字符实例在特征空间中聚集,让不同类的实例彼此远离,因此本文设计了一个基于对比学习的损失函数实现这一目标。

3.图像级的全局特征:由于全局特征对文字识别任务至关重要,模型可以从上下文视觉和语义信息中推理出当前字符,因此本文引入Transformer模型建模艺术字图像的全局特征。


三、方法简述

给定一张图像,首先利用一个角点检测器生成一张角点图,然后分别送入两层卷积网络得到初级特征。一方面,图像的特征将通过多头自注意力机制进一步建模全局特征,另一方面,角点图的特征将通过多头交叉注意力机制与图像全局特征融合。编码器的输出和字符序列Embedding输入Transformer解码器获得特征序列,最终应用两个线性层分别计算两个损失。

图3:CornerTransformer的整体结构,由一个角点引导的编码器和一个Transformer解码器组成,由两种不同模态的表示作为输入。CE Loss是交叉熵损失,CC Loss是提出的字符对比损失函数。1.角点引导的编码器

通常,对于一个特定字符,无论其外观发生怎么的变化,该字符的最关键的角点总是可以被检测到,而且角点之间形成的结构关系也总是相近的。这些点是图像中包含视觉信息最丰富的的位置。因此,本文利用角点图作为辅助输入提供一个不变性视觉特征。

具体地,对于输入图像,模型使用一个经典的角点检测器,Shi-Tomasi检测器生成角点图,该检测器改进了Harris Detector,可以提供更高质量更稳定的角点结果。角点图是一个和图像大小一致,单通道的稀疏矩阵,由大量0和少量1构成,其中值为1的位置表示该位置为角点。获得角点图后,考虑到角点间存在联系,首先使用卷积层建模角点之间的局部相关性,随后将角点和图像特征进行融合。文中采用了一种基于角点查询的交叉注意力机制,将图像特征作为Key和Value,将角点特征作为Query:

该方式可以让角点自动寻找它所感兴趣的图像特征点,让模型将更多的注意力集中于字符的位置。例如,对一个文本图像中的字符“A”,它的顶点的尖端位置更倾向于关注该字符的其他位置,而不是图像中的其他字符。

图4表明,引入该机制后,编码器可以准确地关注到每个字符的位置,尽管存在形变、连笔、弯曲等挑战,更重要的是,有时还可以关注到更加细粒度的特征比如字符笔画信息,尽管并没有提供任何字符级或笔画级的标注。

图4:编码器输出特征图可视化。第一行:输入图像;第二行:Baseline特征图;第三行:基于Baseline引入角点查询交叉注意力机制特征图2.字符对比损失

艺术文字中同类字符的不同实例差异巨大,有必要在训练过程中为每一类字符学习一种统一的表示。受对比学习思想的启发,本文提出了一个字符对比损失(CC Loss),简言之,对于一个Minibatch中的一个字符,它的正样本为该Minibatch中与它同类别其他字符,负样本为其他不同类别的字符:

则模型完整的优化目标为:

图5表明,字符对比损失可以在特征空间中将每一类聚在一起,将不同类分离。

图5:编码器输出的字符特征分布
四、WordArt数据集

为了评估不同方法的艺术字识别性能,本文构建了一个艺术字识别数据集,包含6316张艺术字图像,其中训练集4804张,测试集1511张。图像来自海报、贺卡、封面、手写字等各种场景。

图6:WordArt数据集统计信息,(a) 包含不同文本长度的图片数量 (b) 数据集中全部字符的频率分布
五、实验结果1.消融实验

为了验证模型中每一部分设计的有效性,文中实施了四组实验,分别验证角点图的有效性、不同角点检测器对性能的影响、不同融合策略的影响以及字符对比损失中超参数的影响。实验结果表明,在去掉角点分支且维持参数量不变的情况下、以及把角点分支的输入换成其他输入时,都会造成性能损失;使用不同的角点检测器会对结果造成轻微差异,但都好于不使用角点的情况,而且模型对角点检测的质量具有一定的鲁棒性;传统常用的融合方式并不能充分发挥角点的作用,而角点查询机制可以显著改善模型性能;字符对比损失可以显著改善识别性能,但不同的超参数对该损失函数的影响较大,文中选取了一组近似最优的参数设置。

2.艺术字识别结果

文中对比了CornerTransformer与若干代表性的文字识别方法,得益于基于角点的设计和提出的损失函数,该方法实现了最佳的识别准确率。由图7可以看出,一些困难的样例也可以被成功识别,如包含复杂字体、连笔、极度弯曲和形变的艺术字。

图7:WordArt数据集上的定性识别结果。每一张图下面依次是ABINet-LV的结果,本文使用的Baseline结果,CornerTransformer的结果3.场景文字识别结果

为了进一步验证CornerTransformer的泛化性,本文在6个常用场景文字识别数据集上对比了十几种方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上达到了SOTA的性能,这些数据集的共性是模糊、噪声严重、图像质量差,但是,基于梯度的角点检测对这些因素的干扰是鲁棒的。


六、总结

本文致力于艺术字识别这个新的挑战性任务,并提供了一个WordArt数据集。为了解决该任务面临的难点,作者引入了角点图作为一种鲁棒的表示,并设计了角点查询交叉注意力机制来让模型实现更准确的字符注意力。 文章还提出了一个字符对比损失函数,来学习字符的不变性特征。实验结果表明了本文方法在艺术字和不规则、低质量场景文字识别中的优越性。作者希望WordArt数据集能够激励更先进的文字识别模型的出现,基于角点的设计可以为其他有挑战的识别任务提供灵感。

相关文献

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.
[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.
[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.
[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.
[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

公众号:【CSIG文档图像分析与识别专委会】 作者:谢旭东

Illustration by Pixel True from IconScout

-The End-

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以军:黎真主党高级军事领导层仅剩两人

以军:黎真主党高级军事领导层仅剩两人

财联社
2024-10-16 06:34:38
足协重启归化?三人有望驰援国足 补齐阵容短板

足协重启归化?三人有望驰援国足 补齐阵容短板

球事百科吖
2024-10-18 00:36:09
俄罗斯劝中国向印度开放天宫空间站,共享数据研究,引起外界关注

俄罗斯劝中国向印度开放天宫空间站,共享数据研究,引起外界关注

影孖看世界
2024-10-16 23:45:03
湖南19岁男生和母亲新疆自驾游,父亲发现纸篓异物,崩溃了

湖南19岁男生和母亲新疆自驾游,父亲发现纸篓异物,崩溃了

纸鸢奇谭
2024-10-13 19:26:30
次盘抢七送蛋,德约惜败辛纳,将与纳达尔上演最后一次德纳决

次盘抢七送蛋,德约惜败辛纳,将与纳达尔上演最后一次德纳决

懂球帝
2024-10-18 10:27:14
张学良晚年冷笑说,一生最佩服一个人,不是毛主席也不是蒋介石

张学良晚年冷笑说,一生最佩服一个人,不是毛主席也不是蒋介石

闻识
2024-10-16 12:17:38
这里,突发5.9级地震!

这里,突发5.9级地震!

南国今报
2024-06-17 10:45:56
剩余的职业生涯将不得不一直应对膝盖发炎?小卡:有这种可能

剩余的职业生涯将不得不一直应对膝盖发炎?小卡:有这种可能

直播吧
2024-10-18 07:15:14
太刺激了,早知道泳池这么炸裂就去学游泳了。

太刺激了,早知道泳池这么炸裂就去学游泳了。

有趣的火烈鸟
2024-09-18 20:36:13
笑了,46岁著名男歌手自导自演,花3000万拍爱情片,票房仅61.6万

笑了,46岁著名男歌手自导自演,花3000万拍爱情片,票房仅61.6万

靠谱电影君
2024-10-17 18:41:32
每年分红两次股息率超过6%,大股东持股80%,股价从65元跌到22元

每年分红两次股息率超过6%,大股东持股80%,股价从65元跌到22元

投资观
2024-10-18 08:20:02
30年前的一张老照片,30年前可没什么整容技术,完全的纯天然美丽

30年前的一张老照片,30年前可没什么整容技术,完全的纯天然美丽

人情皆文史
2024-10-18 01:11:57
夹头又丢脸了,气的脸都绿了

夹头又丢脸了,气的脸都绿了

金召点评
2024-10-17 09:28:45
1950年,贵州一位瓦工写信给上将杨勇:我没牺牲,请求安排个工作

1950年,贵州一位瓦工写信给上将杨勇:我没牺牲,请求安排个工作

大海的诺言
2024-10-08 13:55:01
金正恩这次可能要上当了!

金正恩这次可能要上当了!

消失的电波
2024-10-16 10:34:43
韩媒:韩军向韩朝军事分界线以南进行应对射击

韩媒:韩军向韩朝军事分界线以南进行应对射击

澎湃新闻
2024-10-17 00:38:10
诱人!郑钦文入围“分钱盛宴”,小组赛全输有178万,夺冠3646万

诱人!郑钦文入围“分钱盛宴”,小组赛全输有178万,夺冠3646万

侧身凌空斩
2024-10-17 15:15:19
湖人大战太阳,浓眉进4记三分球!杜兰特13+4+5、布克20+1+2

湖人大战太阳,浓眉进4记三分球!杜兰特13+4+5、布克20+1+2

阿牛体育说
2024-10-18 11:46:41
600%!房地产发起总攻

600%!房地产发起总攻

资产界
2024-10-18 01:02:00
最佳中的最佳!梅西获誉史上最佳球员,力压贝利老马,C罗第6

最佳中的最佳!梅西获誉史上最佳球员,力压贝利老马,C罗第6

奥拜尔
2024-10-17 23:51:11
2024-10-18 12:46:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1955文章数 588关注度
往期回顾 全部

科技要闻

诺基亚在大中华区裁员近2000名 欧洲裁350

头条要闻

杭州95后女生花180万元买金条 半年后赚了36万元

头条要闻

杭州95后女生花180万元买金条 半年后赚了36万元

体育要闻

曼联大裁员,裁到了82岁的弗格森头上...

娱乐要闻

刘爽点明杨子和黄圣依的婚姻尴尬

财经要闻

今年前三季度中国GDP同比增长4.8%

汽车要闻

续航达成率116%!? 小马测试宝骏云海纯电版

态度原创

数码
房产
时尚
本地
军事航空

数码要闻

西数部分 SSD 获推固件更新,解决 Win11 24H2 更新后蓝屏死机

房产要闻

选好海南楼市“绩优股”,我只说这一次!

高领打底,如何盘活整个秋冬叠穿?

本地新闻

我和我的家乡| 西部C城,一见倾心

军事要闻

朝鲜明确韩国为"敌对国家"

无障碍浏览 进入关怀版