HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于文本元素的PDF表格区域识别方法研究

作者:窦方坤; 曹皓伟; 徐建良pdf文字流文本抽取文本分类表格识别

摘要:为了对药学PDF文献中的表格进行正确识别,减少表格抽取过程中无关文本元素混入的噪音,以更准确地进行表格结构还原和信息抽取,基于pdf2xml对药学文献PDF中的文本元素进行抽取,将文本元素分类并对表格标题区域向下延伸,从而识别表格区域。实验结果表明,该算法在单栏药学PDF和双栏药学PDF中的识别率分别达到89.7%和93.7%,比tabula工具的识别结果分别提高了10.4%和60.4%,表明该算法能有效处理表格框线缺失和分栏文献等复杂情况。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件导刊

《软件导刊》(CN:42-1671/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《软件导刊》是关于软件开发与管理的学术期刊,以服务于软件的提供者与应用者、增强产业发展能力为宗旨,及时向读者传递软件行业的主流技术、研究热点、企业管理理念和项目管理模式,准确反映行业动态与最新发展趋势,为政府和企业信息化提供服务;总结软件应用中的经验和问题,探讨软件管理与技术人才培养的教育模式,积极促进软件科技成果产业化,为软件行业提供技术...

杂志详情