基于N-Gram语言模型的并行自适应新闻话题追踪算法

来源 :山东大学学报(工学版) | 被引量 : 0次 | 上传用户:mengyi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于NGram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。
其他文献
例1:女性,32岁,因“脾肿大半年余,月经淋漓不尽18天,伴低热”于2004年12月26日入院。实验室检查:血WBC2.0×10^9/L,RBC2.7×10^12/L,Pit29×10^9/L,HB78g/L,淋巴细胞0.54×10^
《荒箸略》是明代刘世教的一部著作,内容专写救荒。书中体现作者从思想上认识到灾荒对灾民和国家产生的危害,提出了官府救灾的必要性,阐述了由富户捐输、商人出资输赈、卖官
以具有快速强放热特性的甲苯液相SO3磺化为目标反应,利用微反应器热、质传递能力强的优点,以提高反应性能和过程可控性。针对微反应器内的甲苯液相SO3磺化工艺进行了研究,考察了
兰花(本文指的是兰科兰属植物的春兰、建兰、寒兰、惠兰、墨兰5个种)是被子植物中的一个大家族,有不少种类可供观赏和药用,具有很高的经济价值。兰花性喜凉爽、湿润、通风、排水
继教育部正式颁布《普通高中课程方案(2017年版)》及《普通高中课程标准(2017年版)》之后,目前已完成新教材的编写修订工作。更为可喜的是国务院办公厅新近颁发了《关于新时
高校新媒体作为新兴的、强有力的育人工作平台,以其点对点精准推送、开放包容、实时接纳互动等特点极大地影响着大学生的人生观、世界观和价值观。以江苏警官学院新媒体矩阵
本刊讯经党中央批准、国务院批复,自018年起,将每年农历秋分设立为“中国农民丰收节”.9月17日,山西广播电视台、中共吉县县委、吉县人民政府共同主办的“吉县苹果飘香三晋、
期刊
笔者主张现代高层办公建筑要与城市景观相结合,并分析了其内部空间和外部造型的设计要点。
铀矿堆浸,溶浸液在铀矿堆中的渗流对浸出效果有非常重要的影响,研究堆浸铀矿堆的渗透特性,对改善铀矿堆浸效果具有重要的意义。采用取自我国南方某铀矿山的堆浸铀矿石,配制10
基层检察院领导班子在推动检察工作升级发展中发挥着重要作用,不断提高基层检察院领导班子综合素质和能力水平,是当前基层检察院面临的重大课题。本文结合基层检察院工作实际