作者:完颜勇; 王宗贤文本定位关键点双阈值分类非最大值压制分类器
摘要:文本中的定位是文本提取的前提和基础, 文中针对手机拍摄的文档文本定位易受背景和文档自身质量干 扰的问题, 根据文档文本的特性, 提出了一种基于关键点检测的文档文本定位算法.算法使用二值化算法对文档文本进 行增强处理, 运用FASText关键点检测方法实现对文本的局部定位, 运用文档文本的特性去除伪关键点, 进行连通域检 测和非最大值压制, 获取文本候选区域;训练高、 低精度两个文本分类器, 对得到的文本候选区域进行双阈值分类, 将候 选文本集分为强文本集、 弱文本集和非文本集;在弱文本集中, 根据文本相似的特征, 寻找与强文本集中相似的文本, 去 除虚假文本, 提高定位精度.实验结果证明, 该算法可以快速、 精确地实现对文档文本的定位.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社