一种自适应字长的中文词库的构建方法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:dong33261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的哈希值区间,从而将哈希值的冲突率降低到0.034%,进一步提高了查找效率。文中大规模动态词库的建立方法可用于计算机语料库建设和中文输入法等自然语言处理过程。
其他文献
目的 探讨择期宫颈环扎术后安胎治疗与分娩结局的相关性.方法 选择46例因宫颈机能不全择期宫颈环扎术治疗的患者为研究对象,其中25例(对照组)宫颈环扎术后给予卧床休息,并予
一九五九年五月一日,云南省泸水县造纸厂新调来一个傈僳族的姑娘,这就是傈僳族第一个造纸女工花伏妞。她来到造纸厂第二天,厂长就对她说:“花伏妞同志,你是傈僳族的第一代、
目的 探讨肺结核可疑症状者结核病医疗服务性影响因素.方法 自2011年1月-2013年2月采用等比例方法进行抽样(60例为可疑症状患者,总共调查360名),医护人员对这种可疑症状患者
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题
会议
由于语言模型的复杂性,现阶段无法构造出该模型的明确形式,而非线性时间序列分析方法可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为,获得系统的运动特征
会议
目的 研讨分析开展健康教育对于农村妇女卫生保健事业的促进作用和对其健康水平的提高.方法 选取2500名农村妇女.将其分为调查组妇女和对照组妇女,其中调查组1250例调查对象,
目的 为了进一步提高大量失血患者的抢救机会,研究和探讨成分输血的价值和意义.方法 将2012年1月-2013年1月的30例在我院急诊外科就诊的大量失血患者按照随机、双盲对照的原
目的 对比分析数字X线成像(DR)与16排螺旋CT用于检测小儿呼吸道X线异物的临床检测价值.方法 选取我院自2011年1月1日-2013年6月30日期间收治的呼吸道有异物患儿50例,作为临床
一个令人难以兰信的间接证明解决了一个老问题,并且把似乎毫无联系的两个数学领域联系起来了已经向数学家们挑战了一百多年的一个著名数论难题现在已被解决。这个问题涉及数
Along with the coming of network times,the research of spam filtering technology has been imperative under the situation. However,some specialties of mail dataset
会议