基于聚类语言模型的生物文献检索技术研究

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：ekinhushuang

【摘要】

：

近年来研究表明使用主题语言模型增强了信息检索的性能，但是仍然不能解决信息检索存在的一些难点问题，如数据稀疏问题，同义词问题，多义词问题，对文档中不可见项和可见项的平滑问题

【作者】

：

文健[1]李舟军[2]

【机构】

：

国防科学技术大学计算机学院湖南长沙 410073

【出处】

：

第三届全国信息检索与内容安全学术会议

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来研究表明使用主题语言模型增强了信息检索的性能，但是仍然不能解决信息检索存在的一些难点问题，如数据稀疏问题，同义词问题，多义词问题，对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要，比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索，这主要包括两个方面工作，一是采用本体库中的概念表示文档，并在此基础上进行模糊聚类，把聚类的结果作为数据集中的主题，文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率，以及文档属于某个主题的概率，并且利用本体中概念部分地解决了同义词问题，而且项可以由不同的主题产生，这也能够部分解决词的多义问题。我们的方法在TREC 2004/05 Genomics Track数据集上进行了测试，与简单语言模型以及现有主题语言模型相比，检索性能得到一定的提高。

其他文献

调温热沉应用的技术研究

热真空试验是航天器特有的试验。在热真空试验中，外部环境可以利用太阳模拟器、红外加热器、调温热沉等设备来模拟。热沉调温是指以改变热沉温度来模拟外部环境温度变化的方法

会议

米索前列醇在人工流产术中的应用观察

目的探讨人工流产术前应用米索前列醇的临床效果.方法选择40例自愿要求人工流产终止妊娠的健康妇女,随机分成对照组和观察组,每组各20例,观察组20例术前2小时将米索前列醇4

期刊

人工流产米索前列醇

左卡尼汀治疗慢性心力衰竭的临床疗效观察

目的探讨左卡尼汀治疗慢性心力衰竭的临床疗效.方法 2011年3月-2013年8月收治慢性心力衰竭患者300例,随机分成对照组和观察组各150例,对照组给予常规强心、利尿、扩血管等基

期刊

左卡尼汀慢性心力衰竭临床疗效

基于二维动态规划的文本分割模型

本文提出一种全局优化的文本分割模型，其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数，并采用二维动态规划来寻找全局最优解。模型基于如下

会议

二维动态规划文本词汇相似度分割模型平均长度全局最优解真实语料相关模型全局优化评价性能评价函数分割方式测试结果模型基错误率设计

基于代表点的聚类算法

本文针对传统聚类算法只用一个中心点表示类的缺点,提出一种新的基于代表点的聚类算法。该算法借鉴CURE算法中多个代表点表示一个类的思想,首先采用划分方法将数据生成原子簇

会议

代表点聚类算法原子簇划分方法计算复杂度运行时间数据生成实例验证去除噪声中心点形状线性思想识别基础

血栓通注射液结合常规西医疗法治疗脑出血恢复期68例报告

目的观察血栓通注射液结合常规西医疗法治疗脑出血恢复期病的临床效果.方法对入选的68例患者一般治疗的基础上于发病10-14d加用血栓通注射液150mg+5%葡萄糖或0.9%盐水250ml

期刊

血栓通注射液常规西医疗法脑出血恢复期

采用模拟网络编码的认知中继网络双向通信的最优功率分配(英文)

Cognitive radio and cooperative communication can greatly improve the spectrum efficiency in wireless communications.We study a cognitive radio network where tw

期刊

最优功率分配网络编码terminalsrelaytransmitamplifycooperativesuperiorityallocation

宫颈环扎术后安胎治疗相关问题的探讨

目的探讨择期宫颈环扎术后安胎治疗与分娩结局的相关性.方法选择46例因宫颈机能不全择期宫颈环扎术治疗的患者为研究对象,其中25例(对照组)宫颈环扎术后给予卧床休息,并予

期刊

宫颈环扎卧床休息药物治疗

傈僳族的造纸女工

一九五九年五月一日,云南省泸水县造纸厂新调来一个傈僳族的姑娘,这就是傈僳族第一个造纸女工花伏妞。她来到造纸厂第二天,厂长就对她说:“花伏妞同志,你是傈僳族的第一代、

期刊

泸水县小组工作五月一日第二年配碱三极

肺结核可疑症状者结核病医疗服务性的探讨

目的探讨肺结核可疑症状者结核病医疗服务性影响因素.方法自2011年1月-2013年2月采用等比例方法进行抽样(60例为可疑症状患者,总共调查360名),医护人员对这种可疑症状患者

期刊

肺结核可疑症状者医疗服务性影响因素

基于聚类语言模型的生物文献检索技术研究

与本文相关的学术论文