基于多分类器的层次式Blog主题标注技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jay12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着blog注册数量的日益增多,blog以极快的速度融入到人们的社会生活中,并随之带来一系列新的应用,与传统网页相比,blog自身有着独特的信息特点,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的热点问题。本文旨在提取blog的主题特征,即根据blog页面数据预测blog感兴趣的信息所属的主题。Blog主题标注可以归结到blog主题分类问题,围绕分类中的两个关键问题,即分类目录的构建和分类算法的实现,文本主要的研究工作包括:1)本文提出了基于K-Means聚类的Blog主题层次目录构建算法。本文首先考察了多个blog空间和网站分类目录的层次结构,研究发现,这些目录层次都存在一定的不足,不能符合用户的需求。针对上述问题,本文提出了基于K-Means聚类的Blog主题层次目录构建算法,该算法能够利用腾讯新闻网站的样本集构建Blog主题层次目录以及相应的语料库,有效地解决了分类器训练前主题类别的确定和训练集的搜集问题。2)本文提出了基于多分类器的blog主题分类算法。Blog的主题特征是通过blog在一段时间内所发表的日志内容来体现的,要提取blog感兴趣的主题信息必须先对该日志集合进行主题分类。Blog日志不规范性和随意性的特点会干扰分类器对日志主题的确定,针对这个问题,本文引入了多分类器联合的方法。实验证明,多分类器可以有效地识别出主题不明确的日志样本,本文对这些样本做单独的处理,为其确定一个较为合理的主题。基于日志主题分类的结果,本文提出了基于多分类器的blog主题分类算法,该算法能快速提取blog的主题特征,本文通过实验验证了该算法的有效性。基于上述研究成果,本文设计并实现了一个层次式的blog主题标注原型系统,包括数据的获取、解析、算法实现等模块,为进行相关的实验和研究提供了一个基础平台。
其他文献
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blo
随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大,而传统的搜索引擎又不能很好的满足用户的需要,本文的金融问答系统的研究便是基于这样的背景。金融问答系统
随着计算机网络和人工智能技术的发展,“Agent”越来越多地出现在各类计算机文献和众多公司的技术发展规划中。由于移动Agent技术自身所具有的许多优越特性,近年来对移动Agen
随着计算机技术的进步,极大的促进了图像处理技术的发展。图像增强作为图像预处理的基本技术,用于改善图像的质量,尽管图像质量没有统一的定义和标准。图像增强是指根据特定的需
为了我国农电管理未来的发展,在新的形势下,管理部门要加强对农电管理的改革创新.只有做好农电管理创新工作,才能适应社会的发展,从而促进我国的农电服务更加有秩序的进行.
无线传感器网络可被广泛用于军事、医疗、教育、交通等诸多领域,其商业价值和应用潜力不可小觑。无线通信技术和电子技术的迅速发展,在给无线传感器网络带来迅猛发展的同时,其安
序列图像的运动分析是诸多学术领域,如计算机视觉、人工智能、模式识别等广泛关注的一个课题,指从静态序列图像中获得关于运动物体以及运动本身的特征,包括运动目标是否存在,运动
本文研究了交流电动机的动态参数分析系统。本系统包括硬件系统和软件系统两部分,以目前使用最为广泛的一般用途鼠笼式中小型三相异步电动机为数据信号源,在系统中对电动机参数
说话人识别,是根据应用语音波形中反映说话人生理和行为的语音特征参数,自动鉴别说话人身份的一种技术。作为生物认证技术的一种,与其它生物识别技术相比,说话人识别具有更为
不久前,复旦大学出土文献与古文字研究中心裘锡圭教授宣布,自己2012年发表的一篇论文“可谓毫无是处,自应作废”,引发一片叫好声.人们为裘先生叫好,既表达了对老先生自我批评
期刊