基于框架匹配的网络文本分析

被引量 : 1次 | 上传用户:zjxiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息过滤已成为信息系统科学领域的技术焦点。从过滤技术角度来看,传统文本过滤技术绝大多数是基于关键字的过滤技术和基于词频统计方法的过滤技术。这两种过滤方法比较简单实用,但仅仅停留在文本结构层次上而无法体现文本语义,故过滤效果很难实现智能化。为解决上述问题,本文提出一种基于语义框架匹配的文本过滤算法。该算法的核心内容包括:对目标文本进行分词、词性标注、特征提取、语义框架提取和语义框架问的相似度计算。在提取关键文本阶段,根据网页元素对正文主题支撑程度的不同,本文将网页分为两层,其中标题作为第一层,正文作为第二层,层次较高的元素权重也相对较大。在进行文本处理阶段,首先对语句进行分词及词性标注。然后,借助语法规则库与分词结果中存储的词性和词在句子中的位置信息,区分出关键词(主谓宾)并填充语义框架,最后将待过滤文本的语义框架同样本的语义框架进行相似度计算。其中,在进行相似度计算时,该算法对权重计算策略进行了改进和优化,主要综合考虑三种因素,即框架元素与行为动词之间的语义距离、框架元素的相关度与层级结构。试验结果表明,与传统算法相比较,该算法在对文本进行有效的降维处理基础之上,使文本的查全率和查准率得到有效的提高。基于上述文本过滤算法,本文设计实现了基于语义框架匹配的短文本过滤系统。试验表明,本系统的性能和过滤效果得到有效的提高。
其他文献
在现代汉语中,量词有着非常重要的地位,也是外国人习得汉语时出现偏误较多的词类,是对外汉语教学的难点之一。笔者选择了一所印尼私立大学的不同学习者作为研究对象,采用问卷调查
<正>许多人认为东方艺术偏重线条的美,而西方艺术着重色彩与造型表现,虽然这样说不免有些仓促,但或许也并非出自偶然。毕竟西方的美学体系,可能根本无法想象东方文人竟能在一
新生儿监护室是医院感染高发区域,是各级医疗机构医院感染管理的重点部门。新生儿由于免疫系统功能发育尚未成熟,对不洁饮食抵抗力差,早产儿尤为突出,可发生感染性腹泻,加重
山区高速公路由于山区地形、地貌多变,工程地质背景复杂,给山区高速公路的选线带来许多困难;山区气候条件复杂多变,给高速公路的使用、行车安全带来很大的影响。特别是山区高
介绍了无溶剂环氧饮水舱涂料的配制,配方设计及技术性能指标,表明该涂料涂膜坚韧、密封性强,具有优良的耐水、防腐功能,无异味、异色和异常,堪称船舶的饮水舱、压载水舱、各
遥感图像受各方面因素的影响往往会产生退化,进而影响图像的品质,需要对退化的图像进行复原处理。主要介绍图像退化-复原模型的建立方法,对现有的经典图像复原方法进行研究与
儿童青少年淋巴瘤通常定义为年龄≤18岁的淋巴瘤患者.儿童青少年非霍奇金淋巴瘤(NHL)的临床特点与成年人不同,是典型的中度到高度恶性的肿瘤,临床上以起病急、肿瘤增长迅速、侵
随着现代社会的发展和网络技术的进步,越来越多的人喜欢“宅”在家里。而在这些人群中,“80后”是一个引人注目的群体。他们足不出户,拒绝与外界沟通,“宅”在家里的很大一部
浙民投完成了对ST生化的要约收购,这成为中国证券史上特殊的一天.A股知名的“戴帽王”ST生化(000403.SZ)终于迎来它涅槃重生的这一天.2018年5月2日,ST生化2018年第一届临时股东
随着国民经济迅速发展,人民生活水平提高,我国居民的体育需求更加倾向于参与性体验性的体育活动并期望能从中获取休闲与刺激感。如何创新以更好顺应居民体育消费需求的转变成