基于多谓词语义框架的网络文本过滤技术研究

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:turtle0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上存在庞大的文本信息数据,如何在良莠不齐的信息中查找有用信息或过滤无关信息成为一个关键课题,而文本过滤的关键,就是文本的相似度计算。传统的文本相似度计算大多是基于词频统计或关键字的计算方法,不能体现语义,导致文本相似度计算的准确率一直较低,近年来基于语义的信息过滤方式越来越受到关注。而已有的基于语义框架的文本相似度研究算法在进行句子或文本相似度计算时,忽略了长短语的文本相似度计算部分的重要性,无法对复杂语句进行处理,不能够很好的体现文本的语义,故过滤算法准确性较低。为了解决上述问题,本文提出了一种基于多谓词语义框架的网络文本过滤算法。算法主要内容包括:文本依存句法分析、语义框架填充、长短语文本处理、框架相似度计算。为了能更好的体现文本语义,语义框架填充时,除了考虑到语义框架的骨干元素(主谓宾)外,框架的组成还插入了状语,时间,地点,方式等元素。在处理长短语文本的相似度计算时,先利用依存句法分析将长短语构建成短语树,然后再利用层次分析法确定各层权值,结合不同层次的结点相似度后得出长短语文本相似度。对句子类、短篇类和长篇类文本进行相似度准确率对比实验后可以看到本算法的相似度计算达到了较高准确性。基于本文的算法,设计并实现了基于多谓词语义框架的网络文本过滤系统。
其他文献
往来账款是企业在经济业一务活动中发生的应收、应付、暂收、暂付款,是企业资产、负债的一个组成部分。加强企业往来账款的管理,对减少企业资金占压,创造良好的企业内部经营管理
目的分析甲状腺功能亢进性心脏病(甲亢性心脏病)的发病机制、诊断、鉴别诊断及临床治疗措施。方法回顾性分析2009年1月-2012年6月住院的30例甲亢性心脏病患者的临床资料。结果应
在印刷体汉字识别中的实验中,提出了一种解决在网络学习时,随样本数的增加,学习时间会按指数级增加的方案:应用智能神经网络系统原理,先训练好各个功能专一、结构简单的小智能
用液上气相色谱法测定了不同温度及中和度下饱和磷铵料浆的平衡水蒸汽压,所得数据经回归处理,得到温度及中和度对水蒸气压影响的经验关系式。结果表明,当温度一定时,水蒸气分压随
直流电机电枢绕组端部绑扎是绕组紧固及绝缘处理的关键工艺之一.本文介绍了在高速电枢绕组端部绑扎无纬带后套上封环并滚铆牢固的结构及工艺方案,并进行了工艺分析.
为了有效掌握大断面巷道锚杆支护后的围岩变化规律,为以后的大断面巷道锚杆支护设计提供参考,以王庄煤矿6202工作面风巷为例,基于FLAC3D软件构建了6202风巷围岩稳定性数值计
介绍了以MCS-51系列单片机为微处理器的八通道的微机配料系统的设计原理.分析了该系统的基本结构原理、机械部分设计和软、硬件的设计方法,同时给出了并行控制具体实施途径,
一体化囊袋式"两堵一注"封孔技术是目前矿井中应用较为普遍的一种钻孔封孔技术。在传统的"两堵一注"封孔工艺的基础上,增加了排水排气装置,实现了注浆过程中有效地将封孔段和
本文提出了桁架结构系统优化设计的新方法遗传算法,它不同于常规优化算法的特点在于,从多个初始点开始寻优,并采用交迭和变异算子避免过早地收敛到局部最优解,可获得全局最优解,且
数据容灾是高校数据高可用的最后一道防线,其目的是为了系统数据崩溃时能够快速的恢复数据。因此,要根据学校信息化安全建设的规划,建立一个支持全校数据存储与备份的异地数据容