基于内容的Web新闻文本自动分类问题研究

被引量 : 0次 | 上传用户:waiwai123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网络信息的大量增长,传统的人工处理网络信息的方式已不能适应时代的需要。网络上的信息大都以文本形式出现。因此,Web文本的自动分类研究成为了一个日益重要的研究领域。本文的研究内容主要有以下几个方面:(1)分析了Web文本分类中的特征表示、特征项提取、分类方法等关键技术,探讨和研究了存在的难点和突出问题。(2)提出了规则和统计相结合的中文命名实体识别方法。提出了一种在构造外部和内部规则的同时采用概率统计的中文命名实体的识别方法,实验结果表明,该方法可以获得较高的准确率和召回率。(3)讨论了Web新闻文本中的新闻实体要素对其主题的限定作用。并以这些新闻实体要素的组合为特征,对Web新闻文本进行主题分类。实验结果表明,该方法获得了较好的主题识别效果。(4)提出一种利用新闻新闻实体要素作为特征来表示Web新闻文本的模型——SNE模型,在此基础上,构建了分类器。实验结果表明,建立在该模型基础上的新闻实体要素组合的Web新闻文本的主题分类方法可以达到较好的分类效果。
其他文献
在0.25%的氢氟酸溶液中,采用阳极氧化法在纯钛板表面制备出高度均匀、排列整齐的二氧化钛纳米管。将含有二氧化钛纳米管的钛板、石墨电极和活性炭颗粒组成三维电极,并应用在
目的研究腹部肿瘤患者术后应用肠内营养支持的护理干预效果。方法选取我院2015年10月~2016年8月收入的100例腹部肿瘤患者为研究对象,对其实施肠内营养支持护理干预并观察护理
预应力钢筋混凝土梁桥由于其整体性好、跨度大、重量较轻、造型美观等特点,已被广泛应用于桥梁工程的建设中,并逐渐向大跨度、大截面方向发展,在尺寸效应上,已迈进大体积混凝
自1997年以来,我们对腹部术后患者进行肠内营养支持疗法,在护理方面有一些体会,介绍如下.1 一般资料 28例均为1997年1月~2003年7月在我院接受手术治疗的患者.男18例,女10例;年
商务智能技术是当前计算机领域的一个重要应用,它是利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分
随着社会的进步,经济的发展,城市化进程也得到不断的推进,建筑行业抓住了发展的契机,加快了发展的步伐,成为我国产业的主要组成部分之一,对推动我国经济的发展具有重要的影响
在二十世纪的西方思想界,弗里德里希·奥古斯特·冯·哈耶克(Fdiedrich Von Hayek)无疑是一位极其重要的人物。然而,由于其理论的复杂性和对它把握的困难,他的思想被人们大量
自2000年"走出去"战略提出以来,我国对外直接投资(OFDI)迅猛发展。本文通过分析我国对外直接投资区位和产业选择的现状,总结出两者之间的协同关系,从东道国、母国和企业自身三个
《皇黎一统志》作为越南汉文小说中最具代表性且文学成就最高的作品,也是记载中国古代的礼仪制度和文化在越南的传承和发展的重要文献资料,对研究古代越南与中国文化上的关联
越南地处东南亚,拥有逾9600万人口(至2017年7月为止),是世界第14人口大国。它紧邻北部湾、泰国湾和中国南海,与中国、老挝和柬埔寨接壤,从贸易地理位置来看,越南占据着巨大的地理优