基于统计语言模型的检索模型及其平滑技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaofeijacky1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究SLM-based检索模型与传统检索模型的对比,以及SLM-based检索模型中的数据平滑技术,包括参数平滑和语义平滑。首先本文介绍了两种SLM-based检索模型,并在2003年863信息检索评测的数据集上对它们和传统的向量空间模型进行了大量的对比实验,在此基础上分析了三种模型的性能对比。然后本文从两个不同的思路研究了平滑技术,一是参数平滑;二是语义平滑。参数平滑研究中本文利用了统计语言模型的研究中提出的四种平滑方法来融合文档语言模型和文档集合语言模型,并进行了大量的对比实验。更进一步地从理论上分析了平滑技术对于SLM-based检索模型的意义。本文从两个方面研究了语义平滑。第一,提出了一种基于语言特征的索引式聚类技术。第二,改进了基于统计翻译思想的SLM-based检索模型中的语义平滑方法,利用哈尔滨工业大学信息检索实验室的《同义词词林(扩展版)》来进行语义平滑,而不是通过统计的方法。
其他文献
本文主要研究了如何调度离线或在线情况下的任意一个请求集合,使得总调度时间最少。本文研究了对称全光树形网络上的MADM问题。本文还可以保证所需要的波长数达到贪心最优
本文围绕着基于激光测距器的移动机器人在室内环境中的障碍物检测及环境地图生成两个问题进行了深入研究.首先,本文系统地总结了移动机器人障碍检测和环境地图生成的基本理论
本文针对指纹鉴别技术的特点,对如何提高指纹鉴别速度进行了分析和研究。在指纹预处理和特征提取的过程中,本文对常用的开方、正弦、余弦函数进行分析,利用分段直线对其进行
本论文通过对大连大学图书馆网络系统现状的分析,以理论结合实际,本着先进性、实用性、充分利用现有资源的原则,确定了系统建设的具体目标并按步骤进行实施。在结构化综合布线改
随着半导体加工工艺的发展,在一块芯片上可以集成上十亿个晶体管.如今,各种各样的功能模块(例如CPU、内存、模拟模块等)都可以集成进一个芯片形成所谓的片上系统(SOC).这在以
本文在Friedman等人提出的一种寻找最优变量序的算法的基础上将广泛应用于人工智能的A*搜索算法引入到最优变量排序方法中,提出了一种寻找变量最优排序的新方法。该算法利用人
本文研究的重点是中文多文档自动文摘中的几个重要问题:主题的自动提取、文摘句的选取、系统的自动评价.具体地讲,本文从如下几个方面进行了研究:一、为了产生通用的文摘,首
随着计算机数字媒体技术的发展,三维角色动画在多个领域呈现出越来越重要的发展趋势,包括三维游戏三维动漫广告媒体军事上的仿真训练灾害演练等等,越来越多的使用到了角色动画的
传感器网络中每个节点既是传感器、又是路由器,大多工作在露天恶劣环境中,计算能力、存储能力、通信能力和电源供应都非常有限。在这些苛刻的资源环境约束下,如何使以“数据为中
入侵检测系统(IDS)作为一种主动的安全防护系统,不仅能检测来自外部的入侵行为,同时也能监督内部用户的未授权活动。在保护计算机系统的安全中,入侵检测系统发挥了重要的作用