【摘 要】
:
互联网技术的发展给人们带来大量非结构化的文本数据,如何将文本数据表示成计算机可以处理的形式是文本挖掘任务的首要问题。为克服词袋模型存在的维数灾难、不能表达完整语
论文部分内容阅读
互联网技术的发展给人们带来大量非结构化的文本数据,如何将文本数据表示成计算机可以处理的形式是文本挖掘任务的首要问题。为克服词袋模型存在的维数灾难、不能表达完整语义、忽略词顺序等缺点,将文本数据的研究从词语粒度扩大为短语粒度,从文本语料库中提取Quality Phrase,以实现对文本更好的表示。论文主要研究基于统计特征的Quality Phrase挖掘方法,提出具有一般意义的Quality Phrase评价标准,解决候选短语挖掘质量不高和Quality Phrase特征权重平均分配问题,为文本分类、信息检索等任务提供支持。主要工作包括:(1)提出基于统计特征的Quality Phrase评价准则提出基于统计特征的Quality Phrase评价准则。首先,将频繁性、组合性、信息性、完整性作为Quality Phrase的评价标准;其次,结合统计学相关知识,对准则进行公式化推导,确定准则函数;最后,设计基于频繁性、基于组合性的短语挖掘实验,在文本语料库上验证Quality Phrase评价准则的有效性。在5Conf、DBLP Abstracts、AP News等6个文本语料库上实验表明,使用矫正频数作为频繁性准则的统计方式与使用原始频数相比,可以明显提高Quality Phrase的挖掘质量;通过卡方检验、点互信息、t检验的结果,确定点互信息为组合性准则的度量函数。(2)提出基于统计特征的候选短语挖掘方法候选短语挖掘是无监督短语挖掘的重要步骤。为确保候选短语的质量,提出基于统计特征的候选短语挖掘方法。首先,在n-gram生成过程中,引入频繁性准则限制词序列的出现次数,排除低频短语;然后,对于多词短语进行组合性约束检测,提取满足统计意义度量函数的短语;最后,单词同样有可能是文章的核心词语,借助Trie单词查找树结构对单词短语进行拼写检查,提高质量的同时保证了效率。在文本语料库上的实验表明,频繁n-gram挖掘、多词短语的组合性约束、单词短语的拼写检查三个阶段都可以提高候选短语的质量,并且基于统计特征的候选短语挖掘方法可以同时保证精确率和召回率处于较高水平。(3)提出基于统计特征的Quality Phrase选择方法在候选短语基础上,提出基于统计特征的Quality Phrase选择方法,进一步提高短语质量。首先,根据短语的类别信息计算频繁性、组合性、信息性、完整性四个特征对Quality Phrase的贡献程度;其次,由于特征之间相互影响,存在冗余,所以采用皮尔逊相关系数度量特征之间的相关程度,加入惩罚因子改进权重分配;最终按照特征加权函数得分提取Quality Phrase。在文本语料库上的实验表明,基于统计特征的Quality Phrase选择方法可以有效提取有意义短语。与其他方法相比,基于统计特征的Quality Phrase挖掘方法具有更高的F1-Score和更短的运行时间,能够更好地表示文档。
其他文献
视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获
随着互联网技术的发展和移动设备的普及,基于互联网的景点、酒店等个性化信息服务日益增多,这些信息数据的重要性也日趋凸显。面对日渐积累的庞大的信息数据,如何从这些数据资源中发现出更深层次的联系和规律而非表面的关系成为了国内外学者研究的热点。作为数据挖掘领域中的重要方法,空间密度聚类算法与特征加权算法被广泛地应用于数据分析与处理中。论文通过对景区兴趣点信息及景区文本数据进行分析,采用空间密度聚类算法DB
图像显著性检测通过模拟人类视觉注意机制自动过滤图像中的冗余信息,检测出显著区域,使其在诸如图像分割、图像缩放剪辑、图像检索以及目标重定位等领域有着广泛的应用前景。
物理教师的物理学科教学知识(Physical Pedagogical Content Knowledge,简称PPCK)是一种将物理学科知识以学生最能够接受的形式进行教学的物理教学知识。它是物理知识与教学知识有机结合的教师知识,对教师的教学行为有很大的影响。本文根据Shulman的学科教学知识(Pedagogical Content Knowledge,简称PCK)相关理论设计了一个包含关于学生的
车载雷达作动系统由众多零件装配而成,零件装配特征误差的累积会直接影响车载雷达天线阵面的位姿精度,从而对雷达工作性能造成影响。传统公差分析与设计往往以二维尺寸链为主,难以有效地表达公差之间的耦合关系以及机构末端零件的位姿要求。三维公差分析通过在三维空间上描述装配特征的变动,能够将二维尺寸链无法表达的公差耦合关系引入机构的装配误差传递模型,使得装配误差的分析结果更加直观和精确。本文以车载雷达作动系统中
在高智能化、信息化、数字化的时代背景下,所需处理的数据量剧增,再加上人们对数据处理效率及速度的要求越来越高,因此,传统的奈奎斯特采样定理已进入瓶颈期。压缩感知的提出
RC4流密码算法广泛应用于网络安全传输、流媒体加密、电子信息加密等领域。随着互联网时代的高速发展,信息网络提供更多便捷服务的同时安全问题也悄然增多,RC4算法受到严重威胁,面临严峻挑战。针对RC4算法密钥流序列随机性不高,易受故障引入攻击、区分攻击、状态猜测攻击和“受戒礼”攻击的问题,提出一种基于椭圆曲线和随机数产生器的RC4改进算法。首先,在密钥编制算法中利用随机比特产生器和随机大素数生成种子密
听觉中脑编码周期性信号时频特征的机制之一是锁相反应,其编码信息向上传递至更高级中枢供其整合以实现听觉系统的言语感知。然而听觉中脑的锁相编码机制如何影响听觉言语感知尚不确定。本文第一部分研究了引发听觉中脑神经元锁相编码的具有不同时序调制特性的谐波复合体对中文言语感知的影响。选取手工标注好声韵母边界的中文语音感知语料库,改造语音样本中的韵母段语音为4种谐波复合体,其它部分不变,得到4种改造言语信号,连
数据挖掘是从数据中挖掘有用、有趣的知识的过程,关联规则挖掘是数据挖掘的主要功能之一,其目的是发现事务项之间存在的隐含关联。随着人们进入大数据时代,传统的单机关联规则挖掘算法已难以满足需求,表现出挖掘时间过长、内存无法处理待挖掘数据等问题,这促进了大数据关联规则挖掘算法的研究。在目前的大数据关联规则挖掘算法的研究中,大多是基于MapReduce并行计算模型、Hadoop分布式平台实现,并行算法的整体
现如今,随着智慧城市的建设以及智能交通的发展。城市的建筑以及道路都会安装大量监控摄像头。那么如何高效的处理这些海量的视频数据就会成为智慧城市建设的一大难点。在智