论文部分内容阅读
本文将基于临时子文档框架的隐式分配(LDA)分割与传统聚类方法(如基于分段的聚类)进行比较,以实现有效的文档聚类。文档聚类被用于主题发现和相似度计算,是文本数据管理中的一个重要问题。传统聚类中采用的方法特别是多主题文档的聚类方法不够可行,因为子主题结构所区分的内容与文档无关。在本研究过程中,现有的传统方法将文本文档作为单一的文本表示和相似度计算,对于多主题文档来说,这是不合理的。拟议的临时框架是解决这一问题的双向做法。第一,使用LDA分割方法对文本数据(主题和单词)进行两级表示,不是将聚类算法应用于整个数据集,而是根据主题边界将文档划分为衔接的子文档。第二,第三章将聚类技术与现有的聚类方法(传统聚类和基于分段的聚类方法)进行了比较,采用球形k-均值(sk均值)、重叠sk均值(OSk均值)和LDA等聚类算法对多主体文档进行聚类。本文还介绍了进一步聚类成组的子文档,每个组采用子文档集的形式,该子文档集在一个大型文档中包含连贯的子文档组。此外,子文档集和原始文档分别在分区和分层聚类中进行聚类,如4章所述。用评价指标Pk测量文档分割,度量误差率值表示分割精度。按照精确度,聚类质量是用F度量来衡量的,如第4章所述。基于第4章提出的评价选择模型,聚类算法产生重叠和非重叠的聚类解决方案。此外,本文还给出了聚类匹配查询处理的实验结果能用于第5章中的时间有效数据检索。查询优化涉及到集群的生成和匹配,对于商业数据库来说是一项非常复杂的任务。为了提高性能,查询处理成为寻找更好执行的主要因素。本文只从不同数据库中查询响应时间的角度出发,使用连接查询和复杂查询等不同的查询,来研究SQL查询优化问题。查询处理方法遵循基础主题,以便使用PL/SQL功能将数据库对象(如过程、触发器和方法)合并到一起以优化执行计划来优化(选择、复杂和联接SQL)查询,以提高聚类生成的查询性能。在多主题文档聚类中,针对多主题文档采用传统聚类方法是不可行的,这是由于子主题结构所区分的内容与文档无关,其中,现有的方法将文本文档看作单一的文本单元表示形式和相似度计算,这不适用于多主题文档。文档的主题部分是通过边界(称为段)来识别的,其缺点是处理过程中使用TextTiling算法单词重复,即,段与任何主题信息无关或标记。多主题文档的聚类方法规定每个文档都是单个文本单元,其中多个群集由与不同主题不明确相关的文档分配。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。开发这样一种文档聚类方法,评估每个文档与不同主题的显式关联。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。传统的多主题文档聚类涉及到模糊聚类、基于生成模型的聚类和集合子空间聚类等方法。这些方法基于一种方法,其中每个群集被视为单个主题或一条信息,每个文档都分配多个群集,其特点是主题相关性。TextTiling算法以连续块(段落和子主题)的形式将文本分解成不同的部分,根据主题边界对文档进行分割,这与LDA算法相比,效率和鲁棒性都不高。每个块都在与包含术语和单词的主题相对应的文档中查找边界。利用向量空间中的点乘积,分析了连续块中的词汇共生和分布规律。在基于LDA的方法中,没有必要分割所有相邻块来识别文档的片段。将基于两种不同算法的多主题数据集的建议框架、基于多文档段的聚类和多文档等现有方法进行比较,得到了预期的实验结果。基于分段的聚类方法采用TextTiling算法。文档聚类是一种很有用的技术,它将大量的文本集合组织成凝聚组。每个组都与一个群集相关联,并标记了相关的单词和声明相关文档的术语。传统的聚类方法不能通过词之间的语义关系准确地表示关联文档。引入基于本体的文档聚类,可以有效地挖掘词之间的语义关系,提高聚类质量,如基于本体的通用加权模式框架和基于E-Learning领域的特定本体文档。然而,从文本中检索词语义、同义词和多义词、适当的聚类声明和高维性等问题仍然存在。为了消除这些问题,本文尝试将WordNet和词汇链相结合,生成具有准确词义消歧能力的词汇聚类。然而,基于本体的文档聚类中的参考本体不能表示和包含所有的术语,为了将这些并不存在于参考本体中的术语关联到群集中,这是非常具有挑战性的任务。上述聚类方法大多偏向于将每个文档作为一个单一的文本单元进行分组,并且发现提供高效和准确的聚类效率较低。同时,基于本文所提出的基于子文档的框架,可以融合文档分割和文档聚类相一致的主题建模和文档分割方法。提出的聚类框架在f-测度和时间代价方面优于现有的聚类方法,在实验1的路透社语料库第1卷(Rcv 1)和20个新闻组中,f-测度的平均改进率分别为10.2%和11.5%。此外,在RCV1数据集上观察到的最高宏F度量值为0.791,平均提高了10.2%,而20个新闻组数据集的平均改进为11.2%,在文档中包含了更小的子文档。在精度方面,我们提出的聚类框架比传统的文档聚类方法表现更好,平均提高了54%以上。随后,实验2提出了包含多主题文档的各种实时数据集,通过所提出的基于子文档的框架对聚类算法进行了全面的演示和验证。此外,与TextTiling相比,同时使用了LDA分割和平分LDA,基于子文档的框架在f测度方面可以提高73%以上的性能。利用LDA和TextTiling进行了文档分段的实验研究。在此基础上,给出了分段评价的性能指标(第六章)。将基于交叉聚类模型的子文档框架的评价性能与无交叉(文档内)聚类相比较,利用lda分割法和lda聚类算法对时间和记忆成本进行了改进。这些评价结果也表明,不同的聚类方法在交叉和文档聚类中获得更好的结果,TextTiling文档分割优于在第6.5节中。在此基础上,对不同聚类方法的实验结果进行了研究,得出了各表示模型(如子文档、子文档集和文档)的交叉和文档(无交叉)的方式。这些结果也与传统的聚类和基于分段的框架进行了比较,并显示了在F度量方面的改进(第6.6节)。此外,分别在6.7和6.8节的实验1和实验2中介绍了不同数据集的子文档框架的性能评估。所提出的框架可以提高聚类性能,特别是平分k均值聚类算法。实验结果表明,在时间成本、精度和存储成本方面,TextTiling分割优于该算法。与TextTiling相比,我们对所提出的基于子文档的框架实现结果的统计意义进行了比较。由于文档(子文档、子文档和文档)呈现较高值的多个表示形式,所以假定此意义测试使用不等方差。进一步,对未配对T检验是通过零假设计算的,所取得的结果没有差异。所提出的框架的重要特点是强调了主题建模,以改进利用聚类算法进行的图像分割,并通过计算分割中的误差率来识别和提取子文档(就Pk而言)基于主题和词。针对基于域数据的基于子文档的聚类算法,通过对主题模型的训练,提出了以TextTiling为基础的图像分割的演示方法,其性能优于标准分割技术。通过查询中的查询处理和优化,通过AddAtribute的方法对查询进行聚类匹配,以消除所有较差的SQL语句。此外,调试PL/SQL代码制定更好的执行计划以根据时间和内存成本优化查询,而不是只依赖于自动的SQL优化进行手动调整。建议的基于子文档的框架在F度量、时间和内存成本方面是准确和有效的,它优于基于分段的框架和传统的聚类,这些文档描绘的是高于标准结果的多主题文件,并连接到主题相似性,以确定透视域,因此建议的基于子文档的框架是文档聚类的一个重要而有效的方法。