论文部分内容阅读
伴随着大数据时代到来,各行各业的信息检索系统用户为从海量信息中精准高效获取所需信息,对信息检索模型的查准率提出了较高要求。在信息检索领域发展的数十年中,国内外相关研究主要针对诸如概率模型、统计语言模型以及向量空间模型等主流检索模型进行实现与优化,而很少有研究涉及其它类型的检索模型及相应的模型构架。通过参阅文献发现,近些年被提出的主流检索模型检索准确率提升幅度较小,其发展陷入瓶颈,而领域内对新类型模型或架构架产生的需求十分迫切。近些年来,一些新兴检索模型与相应构架的提出在领域内引起较多关注。其中特别需要关注的是基于数字信号处理(Digital Signal Processing:DSP)理论的信息检索模型,该类模型较为新颖地引入了数字信号处理领域的相关理论与概念进行检索模型构建。依据现阶段相关研究结果,该类模型在诸多方面存在一定缺陷,具备较大的效果提升空间。本文所提出的检索模型与构架同样基于数字信号处理理论与概念,对当前基于DSP理论的模型与构架进行了多方面优化,其主要创新点为:(1)本文从新的角度提出了一种基于DSP理论的信息检索模型构架DSPF(Digital Signal Processing based Framework)。在以往的同类模型构架中,文档被表示为一个滤波器组,采用频域表示;同时,查询词项被表示为信号,却被采用时域表示,因此为保证滤波计算过程中二者形式的统一,模型必须对信号进行时/频域转换,从而导致实现过程繁琐。此外,以往的模型构架仅将查询词项表示为单一一种信号,且没有为其设置可供人工调节的超参数,使模型效果不够理想。本研究所提出的DSPF模型构架则将查询词项表示为频谱(信号的频域表示),该表示方式可省去以往同类型构架中对于信号的时频域转化过程。此外,为了进一步提高查准率,DSPF构架将每个查询词项表示为以七种不同核函数(Gaussian,Triangle,Circle,Cosine,Quartic,Epanechnikov,Triweight)图形为包络的频谱。此外,DSPF模型构架为每种频谱表示均设置了超参数,通过同步调节频谱宽度以及滤波器宽度获得较高的查准率。(2)将概率模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-BM25,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-BM25在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-BM25在与Gaussian与Cosine核函数结合时效果最佳,在所有数据集上其查准率均高于经典概率模型BM25,BM25+以及当前效果最佳的基于DSP理论的检索模型LSPR-BM25。(3)将统计语言模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-DLM,并将该模型与7种核函数逐一结合。这也是首次将统计语言模型的词项权重计算方式引入基于DSP理论的模型构架。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-DLM在与7个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP为依据时,DPSF-DLM在与Gaussian与Cosine核函数结合时效果最佳,在大多数数据集上其查准率均高于经典统计语言模型DLM。(4)将向量空间模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-MATF,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-MATF在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-MATF在与各个核函数结合时效果无明显差异,几乎在所有数据集上,其查准率均高于BM25,DLM,LSPR-BM25,经典向量空间模型MATF以及本研究所提出的DSPF-BM25与DSPF-DLM。(5)初步实现了一个基于DSPF构架的医学文献检索系统。它可以根据医务人员提交的查询,较为准确地搜寻到诸如诊断、治疗与护理等方面的文献资料。为医务人员在为患者提供医疗服务的各个环节提供参考方案。