作者:张迪; 张云泉; 张广治模式发掘最小描述长度图扩散核
摘要:项集通常具备两个特点:(1)观测样本来自于不同的实体,这些实体间存在着相似关系;(2)样本量稀少,导致模式发掘不完整。本文考虑如何在这类数据上有效地发掘精简的模式集合。首先,通过定义一个扩散核函数,可将每个节点下的小样本扩展至图中的所有节点,并通过权重来标识他们与当前节点的相似度:继而这一权重值,又可以自然地引入到精简模式的搜索与评估过程中。这样我们不仅从理论上给出了图结构对MDL评估的影响,并且在实现上也相对简单,只需对现有算法添加一个预处理过程,并进行少量修改即可。实验表明,这一方案的挖掘效果,比通常的独立挖掘、全局挖掘方式均具备明显的优势。而且,由于只有一个额外的预处理过程,计算代价也较低。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社