【摘 要】
:
随着互联网的迅速发展,越来越多的人通过搜索引擎来获取想要得到的信息。但是搜索引擎返回的结果成百上千,如何从中发现所需的信息就成了一个特别现实的问题。通过对查询结果
【基金项目】
:
863专题目标导向类项目,基于NLP的智能搜索引擎,项目编号:2006AA01Z197;国家自然科学基金面上项目,多元网络架构中异构信息的采集与检索技术研究,项目编号:90612005;国家自然科学重点项目,问答式信息检索的理论与方法研究,项目编号:60435020
论文部分内容阅读
随着互联网的迅速发展,越来越多的人通过搜索引擎来获取想要得到的信息。但是搜索引擎返回的结果成百上千,如何从中发现所需的信息就成了一个特别现实的问题。通过对查询结果进行在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对聚类算法的复杂度有严格限制,许多传统的聚类算法并适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。最后,通过实验验证了该在线聚类算法类别标注的可读性、算法效率以及聚类准确性等方面的有效性,并指出了未来研究工作的重点。
其他文献
唐末诗人韩偓咏花诗并不多,不过他对梅花却情有独钟,突然在天祐元年冬作有以下三首写梅之作:北陆候才变,南枝花已开。无人同怅望,把酒独裴回。冻白雪为伴,寒香风是媒。何因
都铎王朝时期,英国社会贫富严重分化,开始引发社会冲突,对社会秩序的稳定产生严重威胁,都铎王朝政府不得不推行一些慈善救济制度,以自上而下地承担起救济贫民的封建家长责任
目的对于不稳定型心绞痛采用低分子肝素治疗的临床效果进行观察。方法随机选取我院在2017年2月~2018年2月期间收治的80例不稳定型心绞痛患者,均分为对照组与观察组各40例。其
夏承焘《书端己年谱》(简称《年谱》)考证韦庄生于开成元年(836),在乾符四年(877)由鄂杜移居虢州三年。《文学遗产》1996年第3期齐涛《韦庄生平新考》(简称《新考》)对这两点提出新说
房屋参考租金是指在城市规划区范围内,由房地产管理部门对现状利用条件下不同区片、路段等均质地域的房屋,按照商业、居住、写字楼、工业等用途,分别评估测定并定期发布的市
我国具有非常丰富的石油资源储备,而且在多年的生产开采实践中整个石油行业生产开采技术水平已经达到了一定的水平。但是由于我国的石油资源分布在地理因素上具有较大的差异
1月4日,北京大学博雅特聘教授、中国国际关系协会副会长王逸舟做客第142期文汇讲堂,主讲《要成为强国,中国外交还要哪些能力建设》,复旦大学国际问题研究院院长、美国研究中心主
随着油茶品种的优化和种植的规范化,油茶果机械化采摘成为必然,研制油茶果采摘机成为林业机械的一个新领域。油茶果收集装置是油茶果采摘机的重要组成部分之一。在实验的基础
<正> 命题作文,首先要有个好题目。教师应努力把题目出到儿童心坎上,强化题目对儿童的诱发力。笔者曾深入农村小学了解作文命题情况,发现存在以下几种与儿童生活实际、心理状
《鹿苑长春》叙述了少年主人公裘弟所拥有的自足自满的童年世界如何一点点剥落和崩溃,而裘弟在剥落和崩溃中重新确认自我、回归爱的成长历程。裘弟与父母的矛盾冲突正是出于