作者:李丹阳; 程晓荣相似性搜索哈希算法空间向量高维数据搜索问题汉明距离查询效率存储空间
摘要:在解决高维数据的相似性搜索问题中,最具代表性的算法是局部敏感哈希算法,它将高维空间向量映射至低维汉明空间,并保持原空间向量相似性,使得新空间向量的汉明距离反映原空间向量相似度.本文介绍了局部敏感哈希算法的基本思路以及实现过程,分析了其还存在的不足——需要的大量的存储空间来保证查询效率.为此,尝试采用混合索引结构,在数据的搜索和处理过程对数据按出现次数进行分类,过滤无效数据,提高相似搜索的时间和空间效率.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社