基于垂直搜索引擎的文本挖掘系统研究与实现

来源 :首都师范大学 | 被引量 : 6次 | 上传用户:kkyilian2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通用搜索引擎能够为人们提供针对海量信息的检索服务,搜索结果“广而全”,但是对于特定领域的搜索,通用搜索引擎往往不能满足人们“精而深”的检索需求。于是出现了越来越多的针对各个领域的垂直搜索引擎,满足人们对于特定领域的信息检索需求。而随着互联网技术的不断发展和普及,网络上的文本信息资源急剧增长,如何对这些网页中的信息进行文本挖掘就显得尤为重要。因此,针对特定领域的文本进行挖掘及相关的分析处理具有重要的意义。本文主要是围绕垂直搜索引擎技术展开研究,运用文本挖掘算法,将文本聚类技术应用到实际的系统中,主要工作包括以下内容:(1)提出了一种基于Heritrix、Lucene和WebKit的垂直搜索引擎,实现了对特定领域的信息采集、预处理、索引和检索。在网络爬虫的关键技术方面,利用WebKit来解析动态网页,获取网页中的结构化信息。(2)介绍了用于文本挖掘的各种聚类算法,并在分析和研究的基础上,提出了一种改进的single-pass聚类算法,该方法结合了层次聚类的思想,先形成初步类后,再由single-pass算法完成聚类;并对改进后的算法进行了实验分析,实验结果显示,改进后的single-pass聚类算法,查准率提高了10%,查全率提高了12%,Fl-measure提高了11%。(3)详细介绍了基于垂直搜索引擎的文本挖掘系统的设计与实现。在系统设计方面,主要由文本信息采集模块、文本信息预处理模块、文本信息挖掘模块和文本信息服务模块四个部分组成。在系统实现方面,给出了系统的整体部署图和各模块详细的实现过程,并给出了系统运行的效果图,实现了对手机评论信息的文本挖掘和手机评测信息的垂直搜索服务。
其他文献
摘要:通过研究学习兴趣在高职学生学习中的意义,调研新时代背景下高职学生学习动力的现状,分析学习兴趣的研究情况,从引发、激发、增强、维持、巩固等方面提出了紧贴学习需要、巧设问题情境、运用多样手段、促进自我卷入、培养师生情感等激发和培养学习兴趣的具体措施,构建“多环节、五层次”兴趣教学法,在教学中有效地提升了高职学生学习动力,提高了课堂教学质量。  关键词:高职;学习兴趣;系统化培养;对策研究  中图
作为高校教师队伍重要组成部分的辅导员是学校从事大学生思想政治教育的骨干力量,担负着引领大学生把社会主义核心价值观精神内核融入生活实践的重要使命。科学剖析大学生社
瓷都景德镇,是一座因陶瓷而闻名世界的城市,在其近两千年的制瓷历史中,创造了中国乃至世界的辉煌。在瓷都的艺术大舞台上,活跃着一位耄耋之年的老艺术家,他就是景德镇第一批被授予
全球公共卫生系统化事件是21世纪卫生管理面临的一个前瞻性统合创新的学术概念。为了研究全球化社会预测和政策科学的规范性进步,基于可供性理论的延伸判断基础,通过第一次提
结构主义与后结构主义作为独特的非实证主义方法在人文医学研究中应该受到越来越多的关注。在结构主义方法视角下,人文医学研究的整体性与共时性是相伴互随的共同要求;重视语
通过对矿井下环境的检测,能够更好的预防和减少矿难的发生。为了减少伤亡率,矿井瓦斯检测系统必须加强防爆性和准确性两个方面,采用以单片机STC89C52为核心,根据无线传输技术
从教材建设和课堂教学环节阐述国外成功的教学经验,分析国内研究型高等农业院校"大学数学"课程教学存在的突出问题,在此基础上初步探讨新时期如何通过深化"大学数学"教学改革
在司法审判实践中和我们的日常生活中,不同的权利之间的冲突已经十分广泛的存在着。在这些权利的冲突之中隐私权与知情权的冲突比较具有代表性。这其中公职人员的隐私权与公
文学翻译是用另外一种语言,把原作的艺术意境传达出来,使读者在读译文的时候能够像原作时一样得到启发,感动和美的感受。作为文学翻译的一个重要组成部分,散文翻译吸引了古今
摘要:统编教材在选材上大幅增加了古诗词篇目,因古诗词生涩难懂,学生在学习中面临着巨大的挑战。“古诗群文阅读”能为小学古诗学习提供有效的途径,摒弃传统单篇教学的弊端,进行知识的统整,拓宽学生的阅读面,提升思维能力。在古诗群文阅读教学中,教师可将不同主题、题材、作者、写法、意象等方面进行巧妙组群;在异中求同、同中求异、异同兼顾的对比阅读中聚焦诗情、通达情理、增强思辨;通过全面了解诗人的时代背景、经历、