论文部分内容阅读
随着军事信息获取手段的不断增多,军事信息总量急剧增加。日益增长的军事信息总量给军事信息系统的构建、开发、研究和维护带来了不少挑战。如何有效地组织、挖掘和分析已有的军事信息,来不断优化现有的军事信息系统,是满足军事信息系统用户的信息需求,提高军事信息利用水平,实现军事信息精准服务的关键问题。论文以实现军事信息系统的信息精准服务为目标,以数据挖掘为关键技术,以信息的准确检索以及查询的合理推荐为研究内容,围绕信息精准服务实现技术中信息检索和查询推荐所面临的理论问题和技术难点,开展了深入的研究。具体而言,在信息检索方面主要研究点包括:(1)如何结合用户在信息检索过程中的反馈信息,提高信息检索排序模型的性能;(2)如何挖掘用户在信息检索过程中行为信息,实现个性化的信息检索排序模型。在查询推荐方面主要的研究点包括:(1)如何挖掘数据信息中语义相似度来提高查询推荐的准确度;(2)如何解决在查询推荐过程中可能存在的查询推荐冗余问题。论文针对上述问题,从问题建模、算法求解、实验验证和军事应用方法等方面展开研究。主要工作和创新点如下:(1)提出了基于规则挖掘的信息检索排序模型论文在机器学习算法基础上,提出了基于规则挖掘的信息检索排序模型。该模型通过提取训练样本的主要特征进行有效聚类,并结合用户的相关反馈获取各个类中相关度判断的置信值,最终形成相似度判定模型,应用该模型来对测试样本进行相关度排序。提出的算法对LETOR数据集进行了测试,实验表明,信息检索性能指标比其他排序算法有了进一步提高,并且无需复杂的数据预处理工作和手动设定算法参数。(2)提出了基于逻辑回归的信息检索排序模型论文提出了基于逻辑回归的信息检索排序模型,采用主成分分析方法提取文档的有价值且相互独立的特征,在这些特征基础上,结合用户的相关度反馈信息,利用逻辑回归模型,生成查询与文档的相关度判断模型。我们在公开的LETOR4.0数据集上展开实验,并用MAP,P@K,NDCG@K等指标评估了各种算法的性能,验证了论文提出模型的有效性。(3)提出了基于用户行为分析的个性化信息检索排序模型论文完全关注于用户的行为信息,提出了基于用户行为分析的个性化信息检索排序模型。具体而言,我们利用用户对文档的点击信息以及用户在文档上的浏览时间,来估计查询与文档的相关度和用户对文档的感兴趣程度。在算法过程中,我们采用贝叶斯矩阵分解方法克服了数据稀疏性问题,并研究了用户和查询的分布对模型性能的影响。最后通过在实际数据集上的实验验证了用户的行为信息能用来提高信息检索性能,同时验证了用户在当前信息检索任务下的行为信息有助于识别用户的查询意图。(4)提出了基于语义相似度和时效性查询频率的查询推荐排序模型基于马尔科夫模型,论文提出了基于语义相似度和时效性查询频率的查询推荐排序模型。在该模型中,假设用户选择查询推荐符合马尔科夫模型条件,即用户通常在输入完一个完整的字后,选择某个查询推荐。同时基于在语料库上的训练结果,将查询字之间的语义相似度引入到查询推荐算法中。最后在实际查询记录数据集上的展开实验,并与传统的查询推荐方法进行比较,论文提出的基于语义相似度和时效性查询频率的查询推荐排序模型的MRR(Mean Reciprocal Rank,平均位置倒数)指标比其他算法有近4%的提高。(5)提出了基于贪婪算法的多样化查询推荐排序模型论文提出了基于贪婪算法的多样化查询推荐排序模型,该模型目的在于首先将用户感兴趣的查询尽早地返回在查询推荐列表的靠前位置,其次要降低查询推荐列表的冗余度。具体而言,在查询主题层次上,我们通过挖掘用户在当前信息检索任务下的行为信息来预测用户的查询意图。然后我们将查询推荐按照与查询意图的相似性进行排序,同时考虑了查询推荐之间的相似性,使得查询推荐尽可能地包含更多的主题。最后通过实验,验证了论文提出的基于贪婪算法的多样化查询推荐排序方法比其他算法的MRR指标和α-nDCG(α-normalized Discounted Cumulative Gain,α归一化折损累积增益)指标都有显著提高。