基于内容的网页采集分类系统的设计与实现

来源 :东南大学 | 被引量 : 2次 | 上传用户:shishaofei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益繁荣,互联网上的信息资源也越来越多,虽然方便了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反而影响了用户对于有效信息的寻找。互联网新闻作为一种主流的互联网信息来源,相对于其他信息来源具有更大的研究价值,对互联网新闻准确高效地采集并分类是十分必要的,在信息检索和数据挖掘领域都有着重要的意义。基于网页内容对新闻进行分类可以充分考虑新闻内容的语义,避免了网站对新闻误分类或未分类带来的采集结果错误,有着更好的分类效果。论文对网页正文采集技术进行了深入的研究,结合新闻类网站的特点,制定了较为有效的采集策略和更新策略,保证了新闻采集的高效性。由于新闻网站来源较多,网站改版较为频繁,基于模板的正文提取技术己经不能保证提取的准确率,论文通过对网页正文提取技术进行分析比较,得到了一种基于文本分布的通用正文提取算法,并通过实验确定了算法中的最优值,减少了人工编写规则带来的时间成本。对于文本的分类,论文研究并分析了文本分类的整体流程,选用Labeled LDA进行文本的特征表示,相对于传统的向量空间模型降低了特征维度,避免了语义信息的丢失,将LDA模型扩展为有监督的分类模型。通过对文本分类方法的比较,选用支持向量机作为文本特征的分类器。论文选取搜狗中文实验室的新闻语料,采用JGibbLabeledLDA和Scikit-learn对LLDA-SVM算法进行了实现,通过与其他方法分类结果的对比,验证了分类方法的有效性,使用训练好的模型为新文本的分类做准备。论文基于B/S架构对网页的采集和分类系统进行了实现,给出了各系统模块的具体设计和实现,在采集性能和分类准确性两个方面对系统进行了评估,验证了系统的可行性。
其他文献
对航天产品进行系统可靠性评估是确保航天试验成功的一项重要工作,在载人航天试验中可靠性安全性要求更高。本文研究了航天产品可靠性的评估方法,以航天员系统为例,通过对几种常
由于全球人口不断增长、工业持续发展,人们对淡水的需求量快速增长,我们现在面临着水资源匮乏的局面,而且水污染状况也越来越严峻。电吸附法的出现,为人们提供了一种新型的的净水
中发[2015]18号文件和新修改的"地方组织法"是探讨乡镇人大闭会期间主席团职权的最高政策和法律依据。乡镇人大闭会期间主席团没有立法权和人事任免权,但是拥有重大事项决定
目的了解医学本科生心理资本与健康促进生活方式的关系,为提高医学生心理资本水平提供参考依据。方法分层整群抽样选取安徽省某医学院校441名医学本科生,采用积极心理资本问
膀胱癌根治术后性功能的恢复程度是困扰医患的一大难题。本文比较了各种膀胱癌切除、膀胱重建手术对患者的生活质量和性生活的影响,认为腹腔镜原位肠代膀胱术生存率高、新膀
马普学会是全球著名的非营利性基础研究机构,在自然科学和人文社会科学领域都享有盛誉。本文从组织管理、经费资助模式、内外部合作网络、科研人才培养和技术转让模式等角度系
<正>长阳南曲是中国湖北的著名剧种之一。原名"南曲"、"丝弦",大约产生于乾隆至光绪年间,已有200多年的历史。长阳南曲主要分布在资丘、渔峡口两个镇和五峰与长阳毗邻的蒿坪
期刊
<正> “记录纷纷已失真,语言轻重在词臣。若将字字论心术,恐有无边受屈人”,元代刘因的这首具有历史批判精神的《读史》或许道出人们喜爱咏史怀古诗的部分原因。那些所谓的正
为了了解目前中国承包商对PPP项目的风险认知现状,本文采用调查问卷和电话访谈的形式对承包商关于PPP工程的风险认知情况进行了调查,并采用模糊层次分析法(fuzzy AHP)对调查
<正>生物种间关系通常是围绕物质、能量、信息和栖所等方面展开的,其中尤其是食物联系。生物种间关系,按性质可归并为两类。一是种间互助性的相互关系,如原始合作、共栖、共
期刊