作者:康才畯; 江荻现代藏语多级索引检索码前缀字符数值编码藏文词典优化索引模型
摘要:建立在现有编码标准(ISO/IEC10646-1:1993,GB16959-1997)基础上的藏文词典是典型的散列结构,无法按照机器编码顺序对其进行高效的排序和索引。本文利用藏文的构字规则和词汇特征建立起字符与数值编码之间的转换关系,并通过对大型茂语词典音节字符分布的统计分析,提出一种多级索引的词典优化检索方案,其核心内容包括基于基本辅音和元音编码的分级索引思路和基于检索码前缀的匹配技术,最后还讨论了解决同形词检索的“桶”处理办法。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社