基于计量风格学的多层次特征在作者识别应用研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:shangxiao15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在作者识别领域中最重要的是选取能够唯一识别作者的写作特征,这些特征也被称为"写作指纹"。传统的写作特征使用词袋,功能词,以及结构特征,词袋和功能词特征虽然也能达到比较不错的分类效果,但是却忽略了词语之间的关联性,完全丢失了文本的语义信息。通过分析中文语法特点,了解句子构成特点,使用了关联挖掘算法挖掘得到文章中具有关联的词性序列作为特征,该方法挖掘得到的特征称为词性关联特征。同时使用了汉语语法中的虚词词性,情感偏向,文本结构特征等四个类别的特征,构成作者特征的向量空间,并使用机器学习中的
其他文献
数据分析方法能够发现更多潜在规律,数据挖掘技术在各领域的应用取得了巨大的成功。大量文献研究表明,基于数据分析的方法在教学过程和质量管理中显示出巨大的应用适应性。研
两个世纪之交,世界范围内的信息大战、科技大战、市场大战、人才大战……硝烟滚滚,烽火绵绵。我们正在激烈的经济竞争中从事一项伟大的事业——把世界上人口最多的一个大国
随着互联网的普及,人们面临着大量的信息,但是有效的信息较少[1],这就造成了人们获得有效的信息困难的问题,因此推荐系统就尤为重要,论文提出了一种基于Spark Streaming实时
针对基本细菌觅食算法在寻优过程中易在非全局价值点附近大量聚集,导致寻优精度降低、收敛速度过慢、细菌种群多样性降低等一系列问题,提出了一种基于Log-Linear模型的Gauss-
本文论述了国民经济向节能型转变的可行性、可能性、必要性和当前存在的主要问题以及相应对策。
随着保险业务的发展和数据量的增长,如何在大数据环境下进行实时分析,已成为需要迫切解决的课题。论文针对保险公司在决策分析系统中遇到的实际实时计算问题,提出一种基于实
可引起失真的电子牵引系统与铁路信号系统之间的电磁兼容性涉及许多方面,例如包括对电网电流谐波含量的研究。这些谐波受控制方法、电子驱动电路拓扑结构和机车动态阻抗的影
针对人脸数据维数高,可分性差的问题,提出一种半监督人脸数据可分性特征提取方法——SCC-LDA。SCC-LDA先采用稀疏概念编码(Sparse Concept Coding,SCC)进行非监督特征提取,以获取保留人脸数据固有空间几何结构的低维稀疏表达;然后采用线性判别分析(Linear Discriminant Analysis,LDA)在SCC子空间进行有监督特征提取,进一步提取数据的可分性特征
随着对电能需求量的增加,利用输电线路进行电能的传输,从而将电能输送到千家万能户。可以说输电线路作为电能的主要传输通道,其在供电过程中发挥着不可替代的作用。但在电能传输