置信分词——面向中分信息检索的分词模式

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:cats2106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先分析传统分词方式在信息检索应用中所造成的查准率、查全率及检索速度的问题。为同时解决上述问题,笔者构造了基于字词混合分词的置信分词模式,分词项需要包含词、位置及置信度这三个指标。此外,本文还描述了一种具体的RMM置信分词方法,进一步阐释置信分词模式。通过实验,简单验证了置信分词模式的有效性。笔者相信,置信分词模式不仅能应用于信息检索应用,也可推广到其他中文处理应用。
其他文献
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题
会议
由于语言模型的复杂性,现阶段无法构造出该模型的明确形式,而非线性时间序列分析方法可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为,获得系统的运动特征
会议
目的 研讨分析开展健康教育对于农村妇女卫生保健事业的促进作用和对其健康水平的提高.方法 选取2500名农村妇女.将其分为调查组妇女和对照组妇女,其中调查组1250例调查对象,
目的 为了进一步提高大量失血患者的抢救机会,研究和探讨成分输血的价值和意义.方法 将2012年1月-2013年1月的30例在我院急诊外科就诊的大量失血患者按照随机、双盲对照的原
目的 对比分析数字X线成像(DR)与16排螺旋CT用于检测小儿呼吸道X线异物的临床检测价值.方法 选取我院自2011年1月1日-2013年6月30日期间收治的呼吸道有异物患儿50例,作为临床
一个令人难以兰信的间接证明解决了一个老问题,并且把似乎毫无联系的两个数学领域联系起来了已经向数学家们挑战了一百多年的一个著名数论难题现在已被解决。这个问题涉及数
Along with the coming of network times,the research of spam filtering technology has been imperative under the situation. However,some specialties of mail dataset
会议
中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散
会议
目的 分析急性脑血管病患者产生意识障碍的临床表现以及诊治方法.方法 选择2011年9月-2013年9月在我院接受治疗的急性脑血管病意识障碍患者40例,分析患者资料,分析治疗的过程
目的 探究不同的术前准备对小儿手术麻醉效果的影响.方法 选取本院100例手术小儿患者,并将他们随机分为观察组和常规组各50例.观察组为对小儿患者进行手术前进行不同的手术准