面向Blog的自动摘要与搜索排序算法研究

被引量 : 0次 | 上传用户:dabei008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,Blog应用正在不断普及和深化。庞大的Blog用户群所形成的海量信息源使得Blog成为一个极其丰富而有价值的信息资源库。面对如此巨大的信息资源,优秀的Blog搜索引擎显得十分重要,这一需求使得Blog搜索引擎受到越来越多研究人员的关注。在与之相关的研究中,合理的自动摘要能够让用户迅速判断出信息的有效性,良好的搜索排序算法能够优先返回给用户质量更高的结果,这两部分对Blog搜索引擎的好坏无疑有着决定性的作用。本文主要针对面向Blog的自动摘要和搜索排序算法进行了较深入的研究,主要研究工作概括如下:1)描述了Blog相关概念,介绍了和本文研究相关的国内外研究现状,分别对面向Blog的自动摘要和搜索排序算法的相关方法进行了详细分析。2)根据本文应用需求,对Blog中的信息进行了两方面预处理,包括:将评论识别成讨论型评论、关注型评论、垃圾评论三类,并根据类型挖掘对应的价值;利用贝叶斯文本分类方法,融合博文、标签和评论三种特征对博文进行分类。3)提出了一种基于特征信息的Blog自动摘要方法。该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余。4)利用博主之间的各种关注关系评价博主的影响力,继而计算博文的内容价值,并考虑评论因素,给出博文的静态得分。然后考虑博文新鲜度,查询相似性等多方面因素来对搜索结果进行合理排序。5)利用上述研究成果,设计并实现了一个能够适应用户对评论偏好的Blog搜索引擎原型系统,该原型系统同时提供了分类浏览功能。
其他文献
纺织工业是我国长久以来的经济支柱产业和不可替代的民生产业,同时也是国际上处于领先地位的一项产业。从目前该产业的现状来看,织物的瑕疵检测与识别是制约织物生产效率与织
对西方现代主义园林设计风格的形成及其影响作了系统的回顾,并着重探讨了现代主义园林设计不同于以往的几个特点:注重分析研究、否定装饰、反对复兴风格等。还就现代主义园林
电子商务的发展以及其本身的特性,形成了网上贸易的"征税盲区",如何解决十分严重的税收流失问题?我国在电子商务环境下的税收原则除了传统的税收中性原则、税收公平原则和税
财产权是一个由民法和宪法共用的内容宽泛的权利概念 ,但宪法上的财产权主要指的是公民 (或私主体 )针对国家而享有的权利 ,为此具有某种“防御权”的性质。然而 ,这并不意味
大黄牡丹汤治疗阑尾周围脓肿36例成都铁路局昆明工程总公司医院(云南650211)张瑛关键词阑尾周围脓肿,辨证治疗,大黄牡丹皮汤阑尾周围脓肿是外科常见急腹症,临床中笔者曾采用大黄牡丹汤为主
<正>2014年中国互联网大会于2014年8月26日-28日在北京国际会议中心举行。本届大会以"创新、引擎、融合"为主题,具体话题涉及移动互联网、互联网金融、电子商务、大数据与云
<正> 科学思维是科学家在实践和理论的探索中,为追求科学本质而形成的较为固定的思维方法.对于化学学科来说,科学思维贯穿于化学知识与技能学习中,贯穿于分析和解决问题的始
周大新以"文化怀乡"的精神跋涉,力图从传统文化的土壤里汲取营养,寻觅和探索走出现实困境的道路。凝眸故乡,在对苦难的审视和描绘中,在不绝于耳的"三农"问题和市场经济的时代
在新能源产业上,我国与美国起点相近,现在中、美两国都将经济转型发展的重点放在具有战略性的新能源产业上,已经进入利益碰撞期,围绕新能源产业的贸易摩擦呈常态化将是不可避
以建平县灌溉技术试验站为例,通过多年来对玉米不同种植密度、不同灌溉形式和不同年份灌溉的试验研究,分析总结出了适宜本地的最优灌溉制度,为大面积推广提供科学依据,为增产