基于聚类语言模型的生物文献检索技术研究

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:ekinhushuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。我们的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。
其他文献
热真空试验是航天器特有的试验。在热真空试验中,外部环境可以利用太阳模拟器、红外加热器、调温热沉等设备来模拟。热沉调温是指以改变热沉温度来模拟外部环境温度变化的方法
会议
目的 探讨人工流产术前应用米索前列醇的临床效果.方法 选择40例自愿要求人工流产终止妊娠的健康妇女,随机分成对照组和观察组,每组各20例,观察组20例术前2小时将米索前列醇4
目的 探讨左卡尼汀治疗慢性心力衰竭的临床疗效.方法 2011年3月-2013年8月收治慢性心力衰竭患者300例,随机分成对照组和观察组各150例,对照组给予常规强心、利尿、扩血管等基
本文提出一种全局优化的文本分割模型,其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数,并采用二维动态规划来寻找全局最优解。模型基于如下
本文针对传统聚类算法只用一个中心点表示类的缺点,提出一种新的基于代表点的聚类算法。该算法借鉴CURE算法中多个代表点表示一个类的思想,首先采用划分方法将数据生成原子簇
目的 观察血栓通注射液结合常规西医疗法治疗脑出血恢复期病的临床效果.方法 对入选的68例患者一般治疗的基础上于发病10-14d加用血栓通注射液150mg+5%葡萄糖或0.9%盐水250ml
Cognitive radio and cooperative communication can greatly improve the spectrum efficiency in wireless communications.We study a cognitive radio network where tw
目的 探讨择期宫颈环扎术后安胎治疗与分娩结局的相关性.方法 选择46例因宫颈机能不全择期宫颈环扎术治疗的患者为研究对象,其中25例(对照组)宫颈环扎术后给予卧床休息,并予
一九五九年五月一日,云南省泸水县造纸厂新调来一个傈僳族的姑娘,这就是傈僳族第一个造纸女工花伏妞。她来到造纸厂第二天,厂长就对她说:“花伏妞同志,你是傈僳族的第一代、
目的 探讨肺结核可疑症状者结核病医疗服务性影响因素.方法 自2011年1月-2013年2月采用等比例方法进行抽样(60例为可疑症状患者,总共调查360名),医护人员对这种可疑症状患者