HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于反馈合并的中英文混排版面OCR技术研究

作者:任荣梓; 高航文字识别中英混排版面分析分离

摘要:迄今,光学字符识别(OCR)技术已普遍应用于社会生活的方方面面,单一字符集OCR技术领域已经取得重大突破。但由于中文和英文版面分析之间存在的明显差异,现有中英文混排OCR技术的表现均不尽如人意。针对传统OCR方法实现方式的缺点和不足,在研究中英文混合版面分析切分技术难点的基础上,提出了一种改进的基于反馈合并的中英文混合版面分析切分方法。该方法在综合应用Canny算子的图像二值化方法和中值滤波法进行滤波预处理的基础上,采用投影法两次分割字符区域,并对具体切分技巧进行了较为深入的研究。对比验证实验结果表明,所提出的版面分析切分方法可成功分离中英文混合文档中的中文、英文和数字字符,正确率比传统方法高出约8个百分点,可达到97%,较好地解决了传统方法对粘连字符处理效果不佳的问题。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情