基于隐马尔科夫模型的维基词条编辑者行为分析及挖掘

来源 :成都信息工程大学 | 被引量 : 0次 | 上传用户:daweinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科(Wikipedia)是近年来逐渐发展壮大的一种在线百科全书。维基(wiki,一种超文本系统)作为维基百科的基础技术,为全世界的用户提供了协同编辑的环境。现在正处于信息爆炸的时代,网络中用户所创造的数据是十分庞大的。对维基百科中词条的共同编辑行为进行挖掘和分析,就不能局限于传统的静态空间,要从维基词条的真实发展的时间序列数据进行分析,抽取其内在的变化机制。本文的重点与创新点包括以下几个方面:第一,基于张量分解的维基词条时间序列数据去噪及抽取特征:该方法有效的解决了高维数据所面临的稀疏问题,并且能深入挖掘词条序列的内在机制。首先对原始三阶词条张量进行降维操作,抽取表征其内在变化机制的特征作为相似性度量的基础,然后对张量进行分解,不仅为后序的聚类算法减少了工作量、解决了高维数据问题,而且不会破坏元素的内在关系。第二,基于动态时间规整的K-medoids词条分段数据聚类:该方法使用了张量分解对原始数据去除噪声并自动聚类的特点,形成包含不等长的时间序列数据段。由于传统的K-medoids算法进行测量相似性时使用的是欧式距离,无法对相似的形态特征进行拉伸或是位移,而本文使用的基于动态时间规整的K-medoids算法可以在一定程度上克服尺度位移的问题。最后,结合动态时间规整与隐马尔科夫模型,提出一种混合隐马尔科夫模型的维基词条用户行为挖掘算法。此算法可以对词条发展的不同阶段都训练出与之相对应的隐马尔科夫模型。并且利用真实词条数据为改进算法与传统算法设计了对比试验,分别在有无张量分解的数据下对算法进行测试。实验结果表明,这种改进算法在时间处理速度上和聚类效果上都比传统算法有较高的提升。
其他文献
词汇识别是人们在阅读过程中获得词义的最基本任务,获得词义是阅读的最终目的。词汇具有形、音、义三个基本属性,那在词汇识别的过程中,语音和形状信息的作用问题一直是语言
天水市位于甘肃省东南部,地处陕、甘、川三省交界处。天水方言隶属于中原官话陇中片。目前对于天水方言的研究有很多,其语音方面的研究主要运用的是“口耳相传”的方。本文以
RNA编辑是指发生于基因转录后的加工修饰现象,包括核苷酸的插入、缺失和替换。1986年RNA编辑首次在原生动物锥虫线粒体基因cox2上发现。随后的研究表明,RNA编辑广泛地存在于
随着时代的发展,集成电路在体积和性能方面已经达到了技术极限,其发展遇到了瓶颈,因此急需寻找一种新型元器件取代晶体管,以延续摩尔定律。忆阻器,作为继电阻、电感、电容后
该实践报告的翻译项目原文选自《转型中的学校》一书第二章“当代哲学式学校:继杜威之后与柏拉图同思”。选材对柏拉图和杜威的教育学思想做了详尽的对比分析,阐释了柏拉图《
重金属离子的污染问题一直受到人们的广泛关注,各种去除重金属离子的方法也在不断地更新和完善。近年来低价、高效的吸附剂的制备日益成为了人们研究的重点。农林废弃物成本
本翻译实践报告英文原文选自亚历山大·塔巴洛克(Alexander Tabarrok)编辑出版的经济学论文集《企业经济学》(Entrepreneurial Economics)中的第二章“宏观市场和金融安全”
蚊传播多种疾病,包括疟疾、登革热、西尼罗河热、丝虫病、日本脑炎等在内的许多传染病,严重危害人类健康。化学防治因其治理有效、使用方便等特点,始终是蚊媒控制策略中的重
目的:本研究旨在探讨BRAFV600E基因突变与甲状腺乳头状癌(papillary thyroid cancer,PTC)患者临床病理特征及首次131I清甲治疗后疗效的相关性,联合BRAFV600E基因突变和术后首次131I治疗前刺激性甲状腺球蛋白(preablative-stimulated thyroglobulin,Ps-Tg)水平,预测PTC患者首次131I清甲治疗后疗效的价值,以尽早辨识
本文是以非文学翻译为基础的翻译实践报告,翻译原文选自森舸澜教授出版的书籍《无为:自发性的艺术与科学》(Trying not to Try:The Art and Science of Spontaneity)。该书围