高校网站群垂直搜索方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:www0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络大数据时代的不断推进,高校网站信息量也随着网络时代的发展不断增长,用户需要通过互联网获取各种高校网站信息,而用户往往使用通用搜索引擎搜索高校网站信息,但是通用搜索引擎为用户提供的是包含所有领域的横向海量信息搜索,数据量过于庞大,导致用户无法精准获取自己所需的网站信息。为了解决高校网站信息的精准搜索,基于Solr和Spring Boot框架设计并实现了高校网站垂直搜索系统,系统由数据采集、数据预处理、文本分类、索引构建和内容搜索五个模块组成。数据采集模块定时自动从高校网站群中采集教师信息、实验室信息、院系信息和新闻动态等。数据预处理模块对新闻文本进行数据清洗、文本分词和词向量训练。文本分类模块通过卷积神经网络和长短期记忆网络对新闻动态文本进行多标签分类。索引构建模块将处理后的教师数据、实验室数据、院系数据和新闻动态建立倒排索引。内容搜索模块为用户提供搜索接口,解析用户搜索请求,实现了搜索结果的结构化聚合浏览,提升用户体验。利用学校的网站群系统对高校网站垂直搜索系统进行了功能测试和性能测试,测试结果表明,系统已经实现了预定功能,可以实现教师、学术团队和研究方向等内容的精确搜索,解决了通用搜索引擎搜索结果不够准确的问题,提高用户的搜索体验。
其他文献
学生课堂参与度指学生投入在有效课堂教学活动中的时间和精力,直接体现课堂的教学效果和学生学习收获。准确的学生课堂参与度评估是进行教学质量监测的重要依据。目前的线下课堂教学质量评估主要依靠学生成绩、评课说课、常态教学抽查或学生评教等方式,难以全面准确、科学客观地反映实际情况,而且缺乏实时性。同时,日益发展的线上教学,更是需要借助新技术,实时跟踪学生的课堂参与情况。因此,客观、量化的学生课堂参与度的实时
数据中心作为一种基础设施被广泛地应用于各行各业,数据中心安全防护问题也开始普遍被人们关注。数据中心通常采用配置网络防火墙、用户访问控制等传统安全防护手段来抵御外部的入侵行为,但是从数据中心内部安全防护机制来看,这些安全防护手段难以对用户的一些异常操作进行防护,配置和管理也比较复杂。针对数据中心采用传统安全防护手段存在的不足,设计并实现了基于Linux Shell的异常操作检测系统,系统包括日志收集
阅卷作为考试选拔人才过程中的一环,承载着确保结果准确公正的重要责任。即便如今对阅卷过程的客观公正性要求正在逐步提高,当今主流的网上阅卷方式在主观题阅卷上因为不得不使用人工阅卷方式,仍然存在一定的主观差异性。英语科目上作文的自动评分已具有许多成熟可用的实现方法,而作文外书写类题型的自动评分鲜有关注,现有的少量针对这类题型的自动评分系统主要存在题型涵盖不全、需要过多人工介入等问题。近年来发展迅速、应用
生物学研究和科学实验表明,miRNA影响人类复杂疾病的发生和发展。准确识别潜在的miRNA-疾病关联不仅可以增强对疾病分子机制和发病机理的了解,而且可以促进人类疾病的诊断和预防。由于传统生物学实验方法识别miRNA-疾病关联关系是非常耗时耗力的,所以预测潜在miRNA-疾病关联的计算方法备受关注。近年来,许多基于相似性和基于机器学习的关联预测算法模型相继被提出,但在所构建网络质量及所提取特征的表征
云灾备是一种非常流行的云计算服务,通过云计算平台以服务的形式为企业用户提供对云上资源进行灾难备份的能力。由于灾备业务具有周期长、灵活度高、各云产品差异性大的特点,企业用户独立管理云灾备时面临着较高的成本和风险,因此有必要在云端提供统一的云灾备管控系统。系统的设计目标是基于阿里公有云,通过对云灾备管理现状的分析,根据云服务的特点和云灾备管理的具体需求,实现一个以数据备份和恢复为核心功能的云灾备管控系
随着各国军事领域信息化的发展,对于情报处理的时效性要求越来越高,传统使用人工收集、处理情报的方式已经不能满足当前数据量大,时效性高的要求。随着自然语言处理技术的成熟,采用自然语言处理、对特定网站数据进行监测、收集、处理使得情报分析系统的实现成为可能。从前后端实现、数据库设计以及英文情报分析技术实现该系统。主要目的为对特定海军网站进行监测,以获取目标舰艇全寿期事件,包括舰艇服役、建造、部署等时间、地
在当前互联网环境下,Web应用非常广泛,Web安全问题也越来越严重。对于缺乏输入验证的Web应用来说,攻击者可以构造恶意输入,窃取用户和服务提供者的敏感信息,造成严重危害。污点分析是一种基于数据流分析的代码漏洞检测技术,其思想是将需要追踪的敏感数据或外界不可信数据标记为污点数据,并追踪污点数据在应用中的流动,可分为动态污点分析和静态污点分析。静态污点分析不需运行程序,能覆盖代码的所有路径,分析较为
随着互联网的发展,网络传输访问信息的关键是数据安全。操作系统作为信息系统的基础软件,提供了很多措施来加强安全功能,操作系统安全功能的测试尤其是网络安全功能的测试也越来越重要。但是,现有的测试工具测试功能不全面,往往只针对某些网络安全功能进行测试;所以针对网络安全支持子系统提供一套自动化测试方案对于保障操作系统的安全性具有重要的意义。对现有的安全标准关于网络安全支持的要求进行分析,把测试项分为三大类
近些年深度神经网络迅速发展,作为一种变革性技术,它给人们带来了巨大的经济利益和社会效益,但也引起了人工智能的安全问题。有大量研究证明了深度神经网络是非常容易受到对抗样本(Adversarial Example)的攻击。这些对抗样本中的扰动很微小,以至于人类视觉系统无法察觉这种扰动,但这种扰动会导致深度神经网络输出错误的结果,造成了极大的安全隐患。随着安全问题越来越受到重视,本课题将着手研究隐写术(
互联网已经渗入人们生产生活的方方面面,给人们带来极大便利的同时,网络空间安全却也正面临着巨大挑战。其中,HTTP隧道技术简单高效,目前已成为穿越防火墙的有力工具,极大损害了国家和个人利益。HTTP隧道威胁大,隐蔽性强,现有检测技术存在很多问题,因此,对于HTTP隧道检测技术的研究已经刻不容缓。本文为解决HTTP隧道检测难题,结合Spark计算框架、特征工程和机器学习算法等实现了一种基于流特征的HT