【摘 要】
:
在信息爆炸的时代,互联网已经成为了信息传播非常重要的载体之一。随着时间的积累,互联网成为了一个庞大而又复杂的信息仓库,简单的浏览、检索已经不能满足人们的需求。人们
论文部分内容阅读
在信息爆炸的时代,互联网已经成为了信息传播非常重要的载体之一。随着时间的积累,互联网成为了一个庞大而又复杂的信息仓库,简单的浏览、检索已经不能满足人们的需求。人们更希望能够从这些海量数据中挖掘出有用的信息,为将来的发展提供指导和辅助作用。因此本文所做的基于新闻主题模型的热点工作挖掘就非常具有价值。对热点工作的衡量评估主要就是对某类活动数量及其重要性进行的综合评估。因此我们设计了一个以对政府部门新闻报道文本的挖掘为基础的自动化热点工作挖掘展示系统。在此系统中,我们提出和改进了两个关键算法。第一,本文提出了基于统计和规则的职位识别方法,通过角色标注等手段,自动识别出新闻报道中出现的人物的职位,并通过对中国残联网站上新闻文本的学习和测试,证明了本文所提方法的有效性。第二,本文改进了现有的多标签分类算法流程,将带标签的概率潜在语义分析模型引入到算法流程中。算法分析及实验结果表明,本文改进后的方法比单纯使用支持向量机等方法在效率和准确率上都有了较大的提高。在这两大算法的基础上,我们设计实现了热点工作挖掘系统,目前该子系统已经融合到了科技部项目残疾人数据分析与挖掘系统中,给中国残联的工作提供了决策辅助信息。
其他文献
本文首先全面概述了隐私保护的相关技术及应用领域,系统分析了目前国内外一些研究机构所取得的进展。针对目前隐私保护挖掘算法所存在的缺陷,例如数据保护程度不高,事务数据
现在的数字图书馆不能为用户提供有效的个性化服务,为了向用户提供更加优质的因人而异的一对一服务,个性化推荐技术便应运而生,成为数字图书馆领域重要的研究内容并得到研究
组播是下一代Internet应用的重要支撑技术,而组播的安全性是成功进行组通信所必需解决的重要课题之一。目前,人们已提出多种密钥管理方案,并采用不同的组密钥更新方案来处理
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随着具体生物问题的不同而蕴含着特定的语义需求。传统的搜索引擎如Google、百度等通用搜索引擎并不能够有
心脏是人体最重要的器官之一,作为心脏病的多发部位——心室,其生理病理特征的研究具有重要意义。心室中重要的传导系统,包括左、右希氏束支和浦肯野纤维,统称为浦肯野系统。受现
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但
签名鉴别是一种,新兴的基于生物特征的身份识别技术,由于其方便、可靠、从笔迹中提取信息不侵犯隐私而被人们普遍接受,在商务、金融、司法、保险等众多领域中有着广泛的应用,
模式分类问题广泛存在于故障诊断、语音识别、机器视觉、文本检索、图像处理和生物信息学等应用领域。在获取分类任务的相关数据信息以后,模式分类的主要目标是利用模式分类算
乳腺癌是目前世界上发病率和死亡率较高的疾病,严重威胁人类的健康。早期诊断,早期治疗是提高乳腺癌患者生存率的主要手段。目前,乳腺癌诊断的主要方法是通过X光图像、CT、核
随着软件系统应用范围的日趋广泛,我们的日常生活越来越依赖应用软件所提供的服务,目前软件已经应用于航空航天、核电技术、军事、电子机械、金融等许多重要的特殊工程领域,