基于DOM树的web新闻正文抽取技术的研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:fangtietie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,目前的网络已经是一个巨大的数据存储仓库。Web新闻是现代人们获取信息的重要源泉。但是互联网中的信息与噪音几乎是并存的。为了从这个巨大的数据存储仓库中获得相关的信息,国内外已经做了很多研究。目前通用的抽取网页新闻正文的方法主要有两种:一种是过滤网页中的噪音,另一种是直接定位网页正文内容。在这篇文章中综合使用这两种方法来抽取网页新闻的正文。   由于网页自身的特征,每个网页都可以转化为一棵DOM(Document ObjectModel)树。所以对网页的操作可以转化为对树的操作。STM(Simple Tree Matching)算法是计算两个树相似度的传统方法,这里对STM算法进行改进使其可以对共享公共抽取路径的网页进行自动聚类。本文通过网页分块和网页信息化的度量来定位主文本信息的位置。本文的方法可应用在结构化的网页。本文使用自己的算法开发了一个基于在线新闻的正文抽取系统。本文的实验是基于在线的新闻网站,结果也证实这个算法比RTDM(Restricted Top-Down Mapping)算法有效。
其他文献
房价持续上升,百姓望房兴叹。如何控制房价过快上涨,让更多人买得起房,目前已列入各级政府工作议程,党中央、国务院及各级政府部门由上到下,从土地供应、银行信贷到税收调整,
扶风县委认真学习无产阶级专政理论,贯彻执行“以粮为纲,全面发展”的方针,实行科学种田,1975年全县3万亩油菜,平均亩产256.4斤,较1974年增长26.3%。宝塔大队570亩油菜,亩产
宕昌县何家堡公社小堡子大队位于岷江中游,海拔一千七百至二千二百公尺、无霜期一百五十多天,年降雨量六百四十七毫米,日照二千○七十一小时,年均温度8.8℃,耕地八百五十五
遂昌县垵口公社根竹口大队,共有水田800亩,分布在海拔600~1000公尺的山岗、山岙上。山高、水冷、土薄、气温低,生产条件差,历来产量低。通过无产阶级文化大革命,大队党支部狠
在批林批孔运动的推动下,我们为了扩大玉米面积和提高产量,狠批了“制种产量低,麻烦又费力”的懒汉懦夫世界观,大力开展了杂交玉米的制种工作,取得了显著成效。一九七四年,
生产调度是一类重要的组合优化问题,在工业生产、制造系统等领域应用广泛。合理的调度方案有助于提高生产效率,减少生产成本,因此对调度问题研究有着重要的现实意义。批调度
茌平县城关公社北关大队第四生产队,遵照毛主席关于“备战、备荒、为人民”的教导,努力改变生产条件,不断扩大复种面积,春谷相应减少,为了调剂社员生活及解决牲畜饲草等问题
点击理由看得出来,管峻是长年累月地在师法先贤,师法的范围很广,师法的年代也很宽,并没有明确的流派和宗门归属,他似乎只归属于“中国书画”这么一个大题目。这种情景,在许多
进入二十一世纪的市场经济时代,我国第三产业发展面临巨大的压力,这种压力既是挑战,也是机遇。抓住机遇加速我国第三产业的发展,调整我国第三产业发展的结构,对促进市场经济发育、
问:油菜为什么会出现早花现象?答:上海地区的油菜,晚熟品种很少在年前开花,而早热品种的早花现象却经常发生。九月中下旬播种的比九月底十月初播种的早花多,同一播期的细苗