基于Web的智能信息采集和发现系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:my_zq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对这样大量的数据,通过人工或者传统的算法进行分析处理变得十分困难。如何从繁杂的网络环境中对这些信息进行有效地采集和发现成为了亟需解决的问题。智能化信息发现和采集系统,分为信息采集模块和信息发现模块。信息采集模块通过主题爬虫的方式,仅需要提供目标网页,就能通过计算网页相似度,在网络中查找相关网页。主题爬虫通过相关性模型对多目标网络爬虫进行控制,在尽可能多地采集相关网页的同时,减少非相关网页的采集任务,高效地收集相关网页。信息采集模块基于主题爬虫,构建了包括934个网页的仿生网页领域数据集,并根据仿生网页数据集提取得到了仿生网页语料库。信息发现模块针对文本信息,通过LSTM-CRF(Long Short-Term MemoryConditional Random Fields,长短期记忆-条件随机场)模型挖掘新词。构建了LSTMCRF模型,整合词语信息与字符信息对新词进行发现。针对不同语料对象,同其他机器学习模型与现有的NLP(Natural Language Processing,自然语言处理)框架进行对比,在NLPCC(The Conference on Natural Language Processing and Chinese Computing,自然语言处理中文计算会议)数据集上提高了30.8%的新词识别正确率。信息发现功能同时向信息采集功能提供新词信息。信息采集功能利用新词信息,调整词向量,提高信息采集精度。实验证明,在不需要人工干预的情况下,通过新词信息修正的信息采集功能能够在减少27.7%采集网页数目的情况下,提升112.98%的相关网页采集数目。
其他文献
随着互联网时代的到来,每天有数以亿计的信息在网络上更新,当用户需求不明确时,如何在纷繁复杂的信息中快速找到用户所需内容成为了挑战。推荐系统不仅可以向用户推荐曾经购买过的其他类似物品,还可以通过推荐物品附件来增加用户购买量,捆绑推荐相比于传统推荐更加符合用户的消费习惯及购买偏好。在捆绑推荐基础上针对捆绑包中各个物品的序列关系,综合考虑静态捆绑包及动态捆绑包,提出序列化的捆绑推荐模型。不仅考虑捆绑包间
学位
随着互联网时代的到来,互联网技术被广泛应用于各个行业、各个领域,其中也包括教育领域。高校针对学生(主要为应届生)提供的就业服务的发展也是日益完善。基于互联网的高校就业服务指导工作创新凸显了互联网时代“互联网+就业服务指导”的创新有效性,为高校在该领域健康有效发展创造了契机,也凸显了互联网的诸多技术优势。本课题针对高校就业指导中心、应届毕业生和企业的实际需要,设计并开发了高校就业服务系统。本课题根据
学位
近年来,随着科技的进步和发展,人类生活的计算和存储需求在不断增加,集群技术的应用也越来越广泛。然而,随着集群规模的扩大,集群管理问题也日益凸显。由于集群中节点的异构性,物理分散性和节点数目的不确定性等问题,目前的集群管理系统在通信复杂度,数据的一致性以及跨平台的可视化上还存在很大的弊端。针对现有集群管理系统的弊端,论文提出了一种基于ZooKeeper的集群管理方案,并使用图形界面程序Qt进行可视化
近些年来,由摩尔定律推动的中央处理器体系结构改进,使得处理器性能以及多核技术取得了高速发展。ARM处理器是典型的多核体系结构,单个芯片可包含几十内核。然而,多核技术加剧了系统中存储器带宽的争用,导致访存密集型应用程序性能下降。内存系统与处理器之间的性能鸿沟越来越大,访存时延成为制约系统性能提升的主要瓶颈之一。为了满足现代多核处理器对数据访问带宽和时延的需求,新兴的异构存储系统已成为继续扩展存储性能
窗口吸波体天线罩技术可以使机载天线在工作频段内正常通信,在带外威胁频段实现吸波,有效降低天线的双站RCS。而吸波/透波中如何实现陡截止性能是高选择性窗口吸波体的关键问题。因此,本文主要对高选择性窗口吸波体的设计方法进行了研究。首先从二端口网络理论出发分析得到窗口吸波体的快速设计方法,将指标分放到每一功能层上,通过单独设计每一层的性能来达到快速设计窗口吸波体的目的。根据传输线理论分析、建立了传输极点
随着时代的发展,人们越来越愿意在网上发表言论和分享生活,智能手机的广泛普及使得人们在社区或者论坛发帖越来越便利。然而帖子数量的剧增,不仅造成了网站管理的困难,也增加了用户获取资源的难度。因此,如何对以帖子为载体的社区内容进行分类,成为了社区系统一个必不可少的功能。针对社区内容的特点,构建了一个组合分类模型,该模型由以下几个部分组成:首先,针对作为社区内容的帖子存在口语化、特征少的问题,提出以词向量
脑梗死是一种高致残率和死亡率的急性脑血管疾病,伴随着生活水平和平均寿命的增长,患病人数呈爆炸性增长趋势。由于缺乏通用且有效的治疗方式,临床上对脑梗死的治疗一般采用防治结合、重在预防的思路。其中,脑梗死高危人群筛查旨在提前发现易患脑梗死的高危人群,进而通过预防干预来延缓或者避免急性临床事件,减轻对个人和家庭的负担。现有的一些研究将收集到的危险因素特征当作一般的单视图结构化数据处理,忽略了其多视图特性
装甲的制作自古有之,在古人所制众多种类的铠甲中,纸甲、绢甲这类纤维增强复合材料的铠甲,在当今这个武器杀伤力越来越大的时代,依然具有生命力,为各国竞相研究的热点。为了更深入的理解纤维增强复合材料的防弹机理,理解纤维增强复合材料中界面对抗侵彻性能的影响,研发出性能更高的防弹复合材料,本文建立了碳纤维复合材料的多尺度数值模型,进行了微观与宏观的跨尺度模拟研究,在不同尺度之间进行参数传递,建立微观组织与宏