作者:肖红民国报纸数字化ocr篇目标题置标
摘要:民国报纸是数字图书馆建设中不可或缺的重要组成部分。国家图书馆开展民国报纸数字化实践工作,对篇目标题进行OCR文字识别,对篇目位置范围进行置标,旨在实现基于标题检索的民国报纸精准篇目阅览服务。文章对数字化实践中遇到的民国报纸报名变化、报社迁移、报纸附属刊物、文字方向、两版互通,篇目的嵌套、剪报导致的篇目内容缺失、报纸中不同类型图片的处理方式等重要问题进行研究和总结,以期为其他机构相关工作提供建设性经验。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社