HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

PDF文档HTML化中文本重排问题研究

作者:林青 李健页面分块多栏pdf文档文本重排

摘要:目前各种PDF转化工具中,将PDF元素抽取后还原顺序的方法是根据每个文字元素的坐标---由左到右,由上到下的顺序重排元素。这种重排方式无法正确还原多栏或者多区域的PDF文档。文章提出了一种页面分块算法。所提算法将页面划分为不同的区域,在分区基础上重排,有效的提高了多栏或者多区域的PDF文档文本顺序还原的正确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电脑与信息技术

《电脑与信息技术》(CN:43-1202/TP)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《电脑与信息技术》杂志是经国家新闻出版总署正式批准,杂志集权威性、理论性与专业性于一体,具有很高的学术价值,是作者科研、晋级等方面的权威依据。

杂志详情