基于DBSCAN算法与句间关系的热点话题发现研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:mavylin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的 /意义]在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法 /过程]基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果 /结论]采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。 [Purpose / Significance] In the era of big data, facing the massive data users are sometimes helpless. Therefore, more and more scholars begin to pay attention to the algorithm of Internet hot topic discovery, to help users to quickly get hot topics. [Method / Process] Based on the DBSCAN algorithm, the algorithm is optimized by dynamically adjusting parameters to achieve hot topic discovery. According to the syntactic structure and the relationship between sentences to build a hot topic filtering model, filtering hot topics containing the general topic. [Result / Conclusion] Experiments were conducted on the mainstream site news datasets, and the validity of the algorithm was tested by using the evaluation indexes such as the false detection rate and the missed detection rate. The experimental results show that the performance of the improved algorithm is improved and it can provide scientific research for information users Network data efficient way.
其他文献
[目的/意义]基于“233-1理论模型”,对国外图书情报学(LIS)领域学科动态知识结构进行实证研究.[方法/过程]以Web of Science中2006-2015年间近10年LIS领域的核心期刊文献数据
政府信息公开制度,被当下各国普遍推行。作为我国政府信息公开制度发展的里程碑,我国于2008年5月1日正式颁布实施了《中华人民共和国政府信息公开条例》。该条例的出台,对政
随着我国市场改革的深化和民主法制进程的不断加快,政府开始转变自身的职能,从高度集权的大政府向服务型政府转移。政府成为社会生活规则和秩序的制定者和维护者。政府在转变
[目的/意义]哈佛燕京学社引得编纂处是民国期间重要的索引编纂机构,最兴盛时也只有10余人,却在20余年时间内编纂出版了64种81册《汉学引得丛刊》.通过对引得编纂处成员予以分
[目的/意义]先秦典籍在古代典籍中的地位极为重要.本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识.[方法/过程]通过条件随机场模型,
[目的 /意义]在深入解读《高等教育信息素养框架》核心理念和内容的基础上开展元素养课程的教学设计,并在教学实践中进行评估和修正,以期为研究和构建元素养教育模式提供参考
现今社会计算机技术与信息技术飞速发展,科技变化日新月异,对现代企业的发展方式、生产经营方式、组织模式、内部机制等都产生了潜移默化的影响。面对越来越激烈的竞争环境,
[目的 /意义]探索搜索引擎、网络健康社区、问答社区、社交软件四类健康信息平台下,人格特质对青年人健康信息搜寻行为的影响,以期能够改善国内健康信息服务,为青年用户提供
第一部分:绪论;包括选题依据、价值、国内外研究现状、具体使用的研究方法,以及对于文中出现的核心概念的厘定。  第二部分:理论依据;从UGC的巨大优势出发,正视如今档案文化宣传
[目的 /意义]运用文本分析与可视化等方法绘制基本科学指标数据库(Essential Science Indicators,简称ESI)研究前沿的科学全景图谱,在此基础上绘制全球研究前沿视野下的纳米