基于数字信号处理理论的信息检索模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hxs038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代到来,各行各业的信息检索系统用户为从海量信息中精准高效获取所需信息,对信息检索模型的查准率提出了较高要求。在信息检索领域发展的数十年中,国内外相关研究主要针对诸如概率模型、统计语言模型以及向量空间模型等主流检索模型进行实现与优化,而很少有研究涉及其它类型的检索模型及相应的模型构架。通过参阅文献发现,近些年被提出的主流检索模型检索准确率提升幅度较小,其发展陷入瓶颈,而领域内对新类型模型或架构架产生的需求十分迫切。近些年来,一些新兴检索模型与相应构架的提出在领域内引起较多关注。其中特别需要关注的是基于数字信号处理(Digital Signal Processing:DSP)理论的信息检索模型,该类模型较为新颖地引入了数字信号处理领域的相关理论与概念进行检索模型构建。依据现阶段相关研究结果,该类模型在诸多方面存在一定缺陷,具备较大的效果提升空间。本文所提出的检索模型与构架同样基于数字信号处理理论与概念,对当前基于DSP理论的模型与构架进行了多方面优化,其主要创新点为:(1)本文从新的角度提出了一种基于DSP理论的信息检索模型构架DSPF(Digital Signal Processing based Framework)。在以往的同类模型构架中,文档被表示为一个滤波器组,采用频域表示;同时,查询词项被表示为信号,却被采用时域表示,因此为保证滤波计算过程中二者形式的统一,模型必须对信号进行时/频域转换,从而导致实现过程繁琐。此外,以往的模型构架仅将查询词项表示为单一一种信号,且没有为其设置可供人工调节的超参数,使模型效果不够理想。本研究所提出的DSPF模型构架则将查询词项表示为频谱(信号的频域表示),该表示方式可省去以往同类型构架中对于信号的时频域转化过程。此外,为了进一步提高查准率,DSPF构架将每个查询词项表示为以七种不同核函数(Gaussian,Triangle,Circle,Cosine,Quartic,Epanechnikov,Triweight)图形为包络的频谱。此外,DSPF模型构架为每种频谱表示均设置了超参数,通过同步调节频谱宽度以及滤波器宽度获得较高的查准率。(2)将概率模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-BM25,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-BM25在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-BM25在与Gaussian与Cosine核函数结合时效果最佳,在所有数据集上其查准率均高于经典概率模型BM25,BM25+以及当前效果最佳的基于DSP理论的检索模型LSPR-BM25。(3)将统计语言模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-DLM,并将该模型与7种核函数逐一结合。这也是首次将统计语言模型的词项权重计算方式引入基于DSP理论的模型构架。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-DLM在与7个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP为依据时,DPSF-DLM在与Gaussian与Cosine核函数结合时效果最佳,在大多数数据集上其查准率均高于经典统计语言模型DLM。(4)将向量空间模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-MATF,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-MATF在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-MATF在与各个核函数结合时效果无明显差异,几乎在所有数据集上,其查准率均高于BM25,DLM,LSPR-BM25,经典向量空间模型MATF以及本研究所提出的DSPF-BM25与DSPF-DLM。(5)初步实现了一个基于DSPF构架的医学文献检索系统。它可以根据医务人员提交的查询,较为准确地搜寻到诸如诊断、治疗与护理等方面的文献资料。为医务人员在为患者提供医疗服务的各个环节提供参考方案。
其他文献
节肢动物门(Arthropoda)是动物界最大的一门,全世界现存的120多万种节肢动物,占现生动物种数80%以上。许多节肢动物利用独特的毒液(唾液)系统成功捕食。棒络新妇蜘蛛(Nephail
目的观察乌拉地尔、艾司洛尔控制甲状腺手术颈丛阻滞后心血管不良反应的效果。方法将90例甲状腺手术患者平均分为3组,乌拉地尔组、艾司洛尔组和乌拉地尔艾司洛尔复合组。麻醉
美国依据《1962年贸易扩展法》的“232条款”展开“232调查”,美国商务部于2018年公布《钢铝进口对美国国家安全影响的调查报告》,在调查报告中得出钢铝进口对美国的国家安全
储层中的固体沥青类似充填在储层孔隙或裂缝中的胶结物和粘土矿物,占据储层的孔隙和喉道,不仅降低了储层孔隙度和渗透率,还改变后期油气的运移和聚集。固体沥青属于高密度不
提起本片导演,大家都不陌生。这次,执导过《杀人回忆》、《汉江怪物》等影片的奉俊昊导演,首次执导英文片。执导过好莱坞悬疑片《斯托克》的朴赞郁担任制片。两位世界级导演为影
报纸
为研究前向增强杀爆弹前置破片的初速及飞散方向,应用数值仿真的方法模拟了弹丸爆炸的过程。研究头部壳体曲率半径、破片层厚度、头部壳体厚度以及连接螺对前置破片飞散特性
抗生素的发现和大量使用是有史以来医学上最大的进步,它使人们的健康卫生水平得到了极大的改善,挽救了数以千万计人的生命。然而长期的不合理和大量的抗生素滥用使细菌逐渐产
见血封喉(Antiaris toxicaria(Pers.)Lesch.),又名箭毒木,其为桑科(Moraceae)见血封喉属(Antiaris)的植物,在我国是国家三级保护植物,主要分布于广东(雷州半岛)、海南、广西
本论文包括三部分内容:一、利用杂环二烯二羧酸配体4-吡喃酮-2,6-二羧酸(CA),通过溶剂热法设计合成3种包含不同客体的配位聚合物。二、利用刚性配体2,5-二溴对苯二甲酸(DBrTP
在以项目为生产活动基本单元的工程建设行业中,企业的竞争力在于拥有优秀的项目管理人才和营造支持项目管理的使能环境。项目经理与组织环境的匹配是高效发挥项目经理能力的