作者:阿丽亚·巴吐尔; 木特力铺·马木提; 努尔毕...双栏复杂文档图像版面分析连体段特征单词切分重叠率
摘要:为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分析与重叠域合并相结合,采用两级K-means分类策略,有效避免标点符号的影响,增强完整单词块的被切分能力。实验结果表明,该算法比连通域搜索算法和投影算法具有更高的切分精度,在多文种图像单词切分中具有更高的有效性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社