网页信息抽取和自动摘录的研究与应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:wp61wp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术蓬勃发展的今天,人们面临着的网络文本信息和资源急剧膨胀,为了快速了解目标信息,需要获取网页中的主要信息,并能够压缩这些信息生成摘要。信息抽取和自动摘要技术作为自然语言处理领域的一个重要的研究分支,可以对海量的信息自动进行提取、重构、内容分析及摘要生成。而这两项技术的目的都是从海量信息中快速发现用户需要的信息。   本文研究并改进实现了一种效果较好的网页正文抽取方法,网页正文抽取作为一种具体的信息抽取应用,可以迅速的从新闻文档中识别出网页正文,为更多基于网页正文的文本分析提供更加准确的输入语料。利用链接文本密度和正文特征可以较好抽取普通新闻文档的正文内容,但是对于网页中含有较多链接文本,这些链接文本同时也正文内容的新闻文档,经常会出现误判或者遗漏部分正文内容的问题。本文基于传统的统计和正文特征的方法,改进了权重计算方式,使其正确处理普通新闻文档,也能够适应正文链接较多的新闻文档。该方法主要利用了非锚文本节点密度、全文密度和标点符号这三个因素,重新组合、平衡了它们之间的关系,既利用链接密度的关键作用,又一定程度上减少了其造成的目标信息误判的问题,实验证明该方法更有效,且适用性广。   在网页正文抽取的基础工作上,本文对自动文摘的领域应用做了一些尝试性的研究和实现。自动文摘根据文摘和原文的关系分为机械自动文摘和理解型的自动文摘。本文尝试将机械自动文摘应用到对外汉语领域,首先利用中科院的ICTCLAs分词系统对复旦大学的训练语料进行分词,获得了基本词汇库,经过筛选停用词、低频词等词汇,并添加对外汉语领域词汇,获得了一个用于自动摘录的特征词汇库。然后构建原文的空间向量模型,进行词汇权值和句子重要度计算,并按比例抽取办法获得摘要。
其他文献
随着信息技术的飞速发展,信息技术已经渗入到现代社会的方方面面;信息技术在教育中的应用也非常广泛。学习社区是e-learning研究领域的热点,国内外有大量的学习社区,学习社区
由于计算机网络的高速发展,数据量的激增使得计算机存储技术不断向纵深的方向发展。传统的内容分发网已逐渐转变为内容分发网与P2P技术相结合的模式。对于P2P内容分发网系统
面向主题的垂直搜索引擎是一种分类细致、更新及时的搜索引擎,在针对确定了主题领域的搜索服务建设中,有着良好的表现。同时,智能搜索引擎的研究也已经成为搜索引擎领域研究
物体识别技术在民用和军用方面都具有巨大的应用价值,而车辆型号识别更是能在军事侦察,社会调查中能起到重要的辅助作用。但目前,对车辆型号识别的研究并不多,并且当前存在的
本文通过对磁共振信号特征横向驰豫时间T2的分析,提取了标志人类认知功能及情绪发展的生物机制——髓鞘含量的相关信息。   本研究基于Broker4.7T动物磁共振扫描仪,采用Ca
整数分解(质因子分解)问题一直以来都是一个困扰数学家的难题.给出一个大整数,要找出它的因子是很困难的.很多密码系统的安全性就是基于整数分解问题的困难性.比如RSA公钥算
我国的互联网发展迅速,现今网民的数量已经突破4.77亿,网民的规模居全球第一。我国互联网普及率已达34.6%,并保持平稳的上升态势。但是,我国互联网的安全问题越来越突出。计
随着e-Learning教育理论实践的开展,学习对象作为一种新型的资源组织形式被广泛使用。学习对象管理系统为学习对象这种特殊资源提供高效组织和管理及精确查找,提高了学习对象
当今是各种信息化技术飞速发展的时代,信息技术越来越广泛的应用于各个领域。现代教育对教学辅助软件的要求也在不断的提高,于是提出了在教学软件设计中引入“自主学习”设计
Ad Hoc网络是一种多跳的无线网络,它由一组自主的无线节点或终端互相合作而形成。这种网络不需要固定基础设施并且采用分布式的管理机制。由于Ad Hoc网络具有节点随机移动、