信息检索中的扩展词提取算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hdyear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,如何从海量的数据中高效准确的检索相关的信息变得尤为重要。通常情况下,用户提交的查询都比较短,提供的信息不够充分,导致词不匹配问题,检索不到感兴趣的文档。因此查询扩展成为信息检索中的研究热点。而查询扩展方法的核心部分是扩展词的选择,扩展词选择策略的好坏将直接影响二次检索的性能。由此可见,查询扩展中扩展词的选择是重中之重。   本文重点研究了信息检索中扩展词提取算法,其主要研究工作如下:   第一,设计和实现了一种基于语言模型的扩展词提取算法,该算法首先计算每篇相关文档的一元语言模型,即一篇文档生成其包含每个词项的概率,然后将不同文档中的词项合并,对相同词项的概率求和作为相关文档集生成该词项的概率,最后取概率最大的前若干词项作为扩展词。实验证明,这种方法都是有效且可行的。   第二,设计和实现了一种基于语言网络的关键词抽取方法,该方法采用一种综合衡量词语重要性的测度来提取文档关键词。实验结果表明,该抽取关键词的方法是有效的。文档关键词能够高度的概括文档的主题,基于这种思想,将关键词抽取同查询扩展相结合,提出了一种基于关键词抽取的扩展词提取方法。   第三,本文还提出了一种基于机器学习的扩展词提取方法,该方法从上下文语义分析出发,结合词语之间的共现、距离以及词激活力等特征,对候选扩展词利用SVM分类的方法进行细筛选。实验结果表明,该方法能够有效地改善检索效果。   第四,综合本文中的扩展词提取方法,设计并实现了一个基于扩展词二重选择的检索系统。并且基于该系统对本文中的扩展词提取方法进行了对比实验,最后对实验结果进行了评价与分析。
其他文献
针对一般样条方法在拟合利率期限结构时远期收益曲线振荡过大的缺陷,在差商定义三次B样条函数的基础上,设定债券组合的权重,采用包含可变惩罚项的VRP方法,构造了上交所国债利
光传送网络在整个电信网络体系中占据着关键位置,乘载着以IP/MPLS核心网为代表的各类数据业务,承担着光信号的长距离透明传输任务。在传送层直接提供动态、灵活、精细的新型
多输入多输出(MIMO)系统在不增加信道带宽的情况下,有效提高了系统的容量,它是下一代无线通信系统的关键技术之一。预编码技术是利用发射端已知的信道状态信息对发射信号进行
摘要:本文阐述了利用实体机器人,开展兴趣小组和竞赛活动,激发和提高学生创新能力的实践经验。本实践以生本教育理念、建构主义理论和柔性思想为基础理论,以基于项目(任务)的自主学习、个性化学习和小组学习为主要教学方式。  关键词:实体机器人 ;创新能力  一、开展实体机器人教育的困惑  笔者所在的学校近几年逐步提高在实体机器人设备方面的投入,一方面组织学生参加省市各类比赛,另一方面成立学生相关社团(兴趣
2017年2月广东CDC首次报告了一种新的H7N9流感病毒变异株,该变异株在血凝素(HA)基因的裂解位点发生了插入型突变,从而成为对禽高致病性的H7N9流感病毒(HP?H7N9).因此,急需建
目的:观察NMDA受体亚单位1、2A、2B在早期培养的人胚脑神经干细胞中的表达变化。使用一定剂量的NMDA初步探讨NMDA受体对hNSCs凋亡、增殖的影响。籍以填补hNSCs生物学研究中有
集体林权制度改革是继土地改革以来的又一重大改革,自2009年在全国全面启动以来,已经实施了10年.在乡村振兴战略实施的大背景下,新一轮的集体林权改革如何巩固成果、实现新的
期刊
数字脉冲压缩技术因其能有效解决雷达作用距离和距离分辨力之间的矛盾而得到广泛应用。但是信号经脉冲压缩系统后的输出波形除了期望的主瓣外,还存在大小不一的旁瓣,在多目标的
透明光网络通过移除中间节点的0/E/O转换接口,突破了电域处理的瓶颈,能实现不同调制格式、传输速率和数据协议的数据在全光域的透明传输和处理,从而成为光网络未来发展的趋势
湘西自治州位于湖南省西北部,地处湘鄂渝黔四省市交界处,辖7县1市,总人口299万人,国土面积1.55万平方公里,是习近平总书记精准扶贫重要论述的首倡地,是湖南省唯一的地级市少
期刊