作者:郭蕾蕾; 俞璐; 段国仑; 陶性留图像标注文本聚类伴随文本相似度度量关键词抽取
摘要:针对Web图像数据规模大幅增长难以管理及人工标注费时费力等问题,提出了一种仅利用伴随文本信息进行Web图像批量标注的方法。首先对图像的文本信息进行分词、去除停用词、词向量化等预处理;然后利用近邻传播算法对文本聚类,并利用TF-IDF对文档进行关键词抽取,建立候选词词典。分别定义和计算候选词与关键词、候选词与文档、候选词与聚类簇的相似度;最终选取相似度较大的候选词作为图像簇的标注。实验结果表明,基于伴随文本信息的图像标注算法在自建数据集上标注精度和宏F1值达到了88%和49%,达到了预期目标,提高了标注效率。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社