基于语义分析的文本检索模型技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hyc1958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在创新2.0下“互联网+”这种新业态的出现,社会生活的各个领域都与互联网变得密不可分。这也导致了互联网上的各类非结构化数据,结构化数据,半结构化数据的大数据爆炸式增长。虽然互联网公司可以对繁杂的各类数据进行挖掘,分析出用户行为背后习惯爱好,针对各种用户需求设计出更符合他们“口味”的产品与服务;但是对于大多数普通用户而言,如何通过计算机从如此庞大的海量数据中自动检索到有用的信息变得越来越具有挑战。以LDA模型为代表的主题模型是信息检索系统中常用的语义挖掘工具,这类基于概率统计方法的语义挖掘模型可以用来识别语料库中潜藏的主题信息,通过多个概率分布矩阵,最终可以获得每篇文档的一个词频向量。自然语言的不确定性主要表现为随机性和模糊性,基于概率统计的语义挖掘模型只能解决自然语言的随机性问题,而忽略了自然语言的模糊性以及文档中词语之间的语义关联,因此随着网络数据信息的增长,基于概率统计的语义挖掘模型在用于信息检索时虽然可以返回用户需要的有关信息,但没有完全把握用户的中心主题思想,返回的信息涉及的范围较广不够精确,不能让用户满意。为此,论文展开的研究工作包括以下几个方面:第一,引入云模型作为桥梁,在传统的标签主题模型上融入语义知识信息,扩展得到一个新的主题模型,即基于云模型的语义标签主题模型。该模型利用一系列的云空间转换,将标签基于语义知识的矩阵与标签的概率矩阵融合成一个新的语义标签矩阵,并利用这个新的语义标签矩阵来进行主题建模。云模型利用定量表示与定性表达之间的不确定转换来反映随机性与模糊性之间的关联,弥补传统主题模型未考虑自然语言模糊性的不足。新模型利用语义知识信息将语义关系紧密的词语分配到同一主题下,使得挖掘出的潜在主题更具有一致性。第二,为了进一步增强标签模型的建模效果,提出一种基于语义关联的特征获取方法,来获取更好的文档标签。该方法在传统的特征选择的基础上,利用直觉模糊集决策理论中优属度和比较概率的概念,加入了对词语模糊性和词语之间语义关联以及词语与文档主题之间的语义关联的考虑。在该方法中比较概率作为评价文档中词语模糊性和词语之间的语义关联性的指标;在此基础上,优属度作为衡量文档中词语与文档主题贴近程度的指标。通过这两个指标反映文档中词语之间、词语与文档之间的语义关联程度,来获取文档特征或标签,提升文档特征或标签的质量。
其他文献
对等网络是一种与传统C/S模式不同的新型网络。网络中的每个节点既充当服务器,为其他节点服务;同时也是客户机,享受其他节点提供的服务。对等网络从结构上一般分为结构化对等网
随着语义Web的发展,本体技术受到了越来越广泛的关注。如何帮助用户有效地获得相关本体,提高本体重用度和开发效率成为一项重要的研究课题。本文将着重对本体搜索中的核心问
作为密码体系安全手段的重要补充,信任管理在解决无线传感器网络中的内部攻击,识别恶意节点,滤除错误数据,提高系统安全性、可靠性和公平性方面有着显著优势。本文讨论并分析了现
无线传感器网络是在传感器硬件以及普通网络不断发展下诞生的相互融合的高新技术产业,是一种全新的数据感知、采集、传输和处理模式。无线传感器网络不仅能够在军事战争、应急
近年来无线网络通信技术取得了卓越的发展,为无线多媒体网络用户提供了更好的用户体验。在无线多媒体网络中基于不同用户的需求合理的分配资源以提供良好的服务质量保证(QoS)
软件定义网络(Software Defined Network,SDN)通过控制层与数据层的解耦,利用集中式的控制器对网络设备进行可编程化管理,实现对网络资源的灵活配置。然而,随着SDN网络的发展,需要采
预测分类是数据挖掘中的一个重要的分支部分。它能够用来预测对象的数据标签。目前,数据分类技术在很多领域都有着广泛的应用,如银行中的风险评估,市场营销中的客户分类,文本检索
动态背景下运动目标的检测是计算机视觉领域的一个重要课题,在精确制导武器、交通监控、智能车辆等领域有着广泛的应用前景。研究由于摄像机运动引起的背景运动并检测其中的
电容层析成像技术(ECT)和电阻层析成像技术(ERT)都是基于电磁场理论的新型测量技术,具有广阔的应用前景。将两种技术融合成双模态成像技术,可以扩大应用范围,提高测量精度,成为过程层
近年来,无线传感器网络获得了快速发展,广泛应用于环境监控、医疗卫生、军事以及工业等领域,同时也引起了众多研究者的关注。WSN的覆盖问题是网络构建初期和应用过程中的必要