HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

科技大数据背景下的中英双语语料库的构建及其特点研究

作者:苏晓娟; 张英杰; 白晨; 吴思科技大数据双语语料库机器学习语料库构建机器翻译引擎

摘要:首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新时期科技大数据对语料库构建的要求,从期刊、专利中选择“分布式能源”主题数据集,结合“神经网络机器翻译+统计机器翻译”的机器翻译技术,构建形成20834个双语词对初试语料集,利用中国科学技术信息研究所专利数据库、德温特专利数据库形成6428条专利数据对双语词对初试语料集进行测试应用。最后从忠实度、流畅度、可理解度3个方面进行人工评测。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国科技资源导刊

《中国科技资源导刊》(CN:11-5649/F)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《中国科技资源导刊》主要面向政府、科研院所、高等院校、高新技术企业等广大从事科技资源管理的科技管理人员、科研人员和有关专业的研究生以及其他研究人员。

杂志详情