论文推荐| [CVPR 2021] MetaHTR:书写风格自适应的手写文本识别
发布于 2021-05-11 22:22 ,所属分类:论文学习资料大全
一、研究背景
二、方法原理简述
图1 网络训练过程
MetaHTR基于Model Agnostic Meta-learning(MAML)[1]算法,其关键在于训练过程,识别模型部分可以是任意的主流文本识别模型[2-4]。图1展示了MetaHTR的训练过程。MetaHTR训练的目的是为了得到的模型在少量新书写风格的数据中经过一次参数更新后,即可较好地适应该风格。
在训练阶段,每一次迭代分为内循环和外循环两部分:内循环是模拟用少量样本去适应新的书写风格这个过程,产生一个临时的模型;外循环是用临时模型去推理该风格的新样本。每一次迭代要用到某一个Writer的两部分不重叠的样本。在内循环中,用初始模型处理第一部分样本并根据Loss更新参数,得到临时模型。这里的Loss衡量识别结果与GT的差距。接着进行外循环,用临时模型处理第二部分样本,并根据Loss对初始参数进行更新,得到迭代一次的模型。值得注意的是,这里通过二阶导数将梯度从临时模型回传到初始模型。上述过程重复进行直到训练结束。在推理阶段,训练好的模型先在少量某个Writer的数据中Fine-tune一次,然后再开始推理。
三、主要实验结果及可视化效果
图2 风格适应前后效果对比
表1 Comparison Among Baselines, Naive Fine-tuning, And MetaHTR For Using Lexicon (L), No Lexicon (NL). GAP: Difference Between MetaHTR (NL) Vs Baseline (NL). We Almost Get Around 5-7% WRA Improvement Over Respective Baselines Under NL Setting.
表2 Performance Analysis With Different Approaches.
四、总结及讨论
五、相关资源
MetaHTR论文地址:
https://arxiv.org/pdf/2104.01876.pdfMAML论文地址:
https://arxiv.org/pdf/1703.03400.pdfASTER论文地址:
https://ieeexplore.ieee.org/document/8395027SAR论文地址:
https://arxiv.org/pdf/1811.00751.pdfSCATTER论文地址:
https://arxiv.org/pdf/2003.11288.pdf
参考文献
[1] Finn, C., Abbeel, P., & Levine, S. (2017, July). Model-agnostic meta-learning for fast adaptation of deep networks. In International Conference on Machine Learning (pp. 1126-1135). PMLR.
[2] Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., & Bai, X. (2018). Aster: An attentional scene text recognizer with flexible rectification. IEEE transactions on pattern analysis and machine intelligence, 41(9), 2035-2048.
[3] Li, H., Wang, P., Shen, C., & Zhang, G. (2019, July). Show, attend and read: A simple and strong baseline for irregular text recognition. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 8610-8617).
[4] Litman, R., Anschel, O., Tsiper, S., Litman, R., Mazor, S., & Manmatha, R. (2020). SCATTER: selective context attentional scene text recognizer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11962-11972).
原文作者:Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song
撰稿:李鸿亮
往期精彩内容回顾
论文推荐|[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)
论文推荐|[CVPR 2021] 融合文本检测与相似度学习的场景文本检索
论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法(有源码)
论文推荐|[CVPR 2021] 序列到序列对比学习的文本识别
论文推荐|[CVPR 2021]重新思考文本分割:新的数据集及一种针对文本特征的改进分割方法
论文推荐|[PR 2021]一种用于惯性信号空中手写无监督域迁移的可视化方法
论文推荐|[ECCV2020] 可以看清吗?使用角度监督进行内容感知纠正
论文推荐| [AAAI 2021]DeepWriteSYN:基于深度短时表征的联机笔迹合成方法
论文推荐|[CVPR 2021]像人类一样阅读:用于场景文本识别的自主与双向迭代语言建模(代码将开源)
论文推荐|[AAAI 2021] SPIN:用于场景文本识别的结构保持内部偏移网络
相关资源