基于简易子文档框架的高效文档聚类研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:confusion00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文将基于临时子文档框架的隐式分配(LDA)分割与传统聚类方法(如基于分段的聚类)进行比较,以实现有效的文档聚类。文档聚类被用于主题发现和相似度计算,是文本数据管理中的一个重要问题。传统聚类中采用的方法特别是多主题文档的聚类方法不够可行,因为子主题结构所区分的内容与文档无关。在本研究过程中,现有的传统方法将文本文档作为单一的文本表示和相似度计算,对于多主题文档来说,这是不合理的。拟议的临时框架是解决这一问题的双向做法。第一,使用LDA分割方法对文本数据(主题和单词)进行两级表示,不是将聚类算法应用于整个数据集,而是根据主题边界将文档划分为衔接的子文档。第二,第三章将聚类技术与现有的聚类方法(传统聚类和基于分段的聚类方法)进行了比较,采用球形k-均值(sk均值)、重叠sk均值(OSk均值)和LDA等聚类算法对多主体文档进行聚类。本文还介绍了进一步聚类成组的子文档,每个组采用子文档集的形式,该子文档集在一个大型文档中包含连贯的子文档组。此外,子文档集和原始文档分别在分区和分层聚类中进行聚类,如4章所述。用评价指标Pk测量文档分割,度量误差率值表示分割精度。按照精确度,聚类质量是用F度量来衡量的,如第4章所述。基于第4章提出的评价选择模型,聚类算法产生重叠和非重叠的聚类解决方案。此外,本文还给出了聚类匹配查询处理的实验结果能用于第5章中的时间有效数据检索。查询优化涉及到集群的生成和匹配,对于商业数据库来说是一项非常复杂的任务。为了提高性能,查询处理成为寻找更好执行的主要因素。本文只从不同数据库中查询响应时间的角度出发,使用连接查询和复杂查询等不同的查询,来研究SQL查询优化问题。查询处理方法遵循基础主题,以便使用PL/SQL功能将数据库对象(如过程、触发器和方法)合并到一起以优化执行计划来优化(选择、复杂和联接SQL)查询,以提高聚类生成的查询性能。在多主题文档聚类中,针对多主题文档采用传统聚类方法是不可行的,这是由于子主题结构所区分的内容与文档无关,其中,现有的方法将文本文档看作单一的文本单元表示形式和相似度计算,这不适用于多主题文档。文档的主题部分是通过边界(称为段)来识别的,其缺点是处理过程中使用TextTiling算法单词重复,即,段与任何主题信息无关或标记。多主题文档的聚类方法规定每个文档都是单个文本单元,其中多个群集由与不同主题不明确相关的文档分配。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。开发这样一种文档聚类方法,评估每个文档与不同主题的显式关联。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。传统的多主题文档聚类涉及到模糊聚类、基于生成模型的聚类和集合子空间聚类等方法。这些方法基于一种方法,其中每个群集被视为单个主题或一条信息,每个文档都分配多个群集,其特点是主题相关性。TextTiling算法以连续块(段落和子主题)的形式将文本分解成不同的部分,根据主题边界对文档进行分割,这与LDA算法相比,效率和鲁棒性都不高。每个块都在与包含术语和单词的主题相对应的文档中查找边界。利用向量空间中的点乘积,分析了连续块中的词汇共生和分布规律。在基于LDA的方法中,没有必要分割所有相邻块来识别文档的片段。将基于两种不同算法的多主题数据集的建议框架、基于多文档段的聚类和多文档等现有方法进行比较,得到了预期的实验结果。基于分段的聚类方法采用TextTiling算法。文档聚类是一种很有用的技术,它将大量的文本集合组织成凝聚组。每个组都与一个群集相关联,并标记了相关的单词和声明相关文档的术语。传统的聚类方法不能通过词之间的语义关系准确地表示关联文档。引入基于本体的文档聚类,可以有效地挖掘词之间的语义关系,提高聚类质量,如基于本体的通用加权模式框架和基于E-Learning领域的特定本体文档。然而,从文本中检索词语义、同义词和多义词、适当的聚类声明和高维性等问题仍然存在。为了消除这些问题,本文尝试将WordNet和词汇链相结合,生成具有准确词义消歧能力的词汇聚类。然而,基于本体的文档聚类中的参考本体不能表示和包含所有的术语,为了将这些并不存在于参考本体中的术语关联到群集中,这是非常具有挑战性的任务。上述聚类方法大多偏向于将每个文档作为一个单一的文本单元进行分组,并且发现提供高效和准确的聚类效率较低。同时,基于本文所提出的基于子文档的框架,可以融合文档分割和文档聚类相一致的主题建模和文档分割方法。提出的聚类框架在f-测度和时间代价方面优于现有的聚类方法,在实验1的路透社语料库第1卷(Rcv 1)和20个新闻组中,f-测度的平均改进率分别为10.2%和11.5%。此外,在RCV1数据集上观察到的最高宏F度量值为0.791,平均提高了10.2%,而20个新闻组数据集的平均改进为11.2%,在文档中包含了更小的子文档。在精度方面,我们提出的聚类框架比传统的文档聚类方法表现更好,平均提高了54%以上。随后,实验2提出了包含多主题文档的各种实时数据集,通过所提出的基于子文档的框架对聚类算法进行了全面的演示和验证。此外,与TextTiling相比,同时使用了LDA分割和平分LDA,基于子文档的框架在f测度方面可以提高73%以上的性能。利用LDA和TextTiling进行了文档分段的实验研究。在此基础上,给出了分段评价的性能指标(第六章)。将基于交叉聚类模型的子文档框架的评价性能与无交叉(文档内)聚类相比较,利用lda分割法和lda聚类算法对时间和记忆成本进行了改进。这些评价结果也表明,不同的聚类方法在交叉和文档聚类中获得更好的结果,TextTiling文档分割优于在第6.5节中。在此基础上,对不同聚类方法的实验结果进行了研究,得出了各表示模型(如子文档、子文档集和文档)的交叉和文档(无交叉)的方式。这些结果也与传统的聚类和基于分段的框架进行了比较,并显示了在F度量方面的改进(第6.6节)。此外,分别在6.7和6.8节的实验1和实验2中介绍了不同数据集的子文档框架的性能评估。所提出的框架可以提高聚类性能,特别是平分k均值聚类算法。实验结果表明,在时间成本、精度和存储成本方面,TextTiling分割优于该算法。与TextTiling相比,我们对所提出的基于子文档的框架实现结果的统计意义进行了比较。由于文档(子文档、子文档和文档)呈现较高值的多个表示形式,所以假定此意义测试使用不等方差。进一步,对未配对T检验是通过零假设计算的,所取得的结果没有差异。所提出的框架的重要特点是强调了主题建模,以改进利用聚类算法进行的图像分割,并通过计算分割中的误差率来识别和提取子文档(就Pk而言)基于主题和词。针对基于域数据的基于子文档的聚类算法,通过对主题模型的训练,提出了以TextTiling为基础的图像分割的演示方法,其性能优于标准分割技术。通过查询中的查询处理和优化,通过AddAtribute的方法对查询进行聚类匹配,以消除所有较差的SQL语句。此外,调试PL/SQL代码制定更好的执行计划以根据时间和内存成本优化查询,而不是只依赖于自动的SQL优化进行手动调整。建议的基于子文档的框架在F度量、时间和内存成本方面是准确和有效的,它优于基于分段的框架和传统的聚类,这些文档描绘的是高于标准结果的多主题文件,并连接到主题相似性,以确定透视域,因此建议的基于子文档的框架是文档聚类的一个重要而有效的方法。
其他文献
美学,顾名思义就是研究美的学科。"美是什么"是美学要解决的基本问题。美学的概念于1760年被德国哲学家鲍姆·加登正式提出,西方对于美的研究从古希腊时期至今从未止步。美又是一个主观观念,每个人对于美的定义有所不同:柏拉图说"美是理念",亚里士多德说"美是整一"……把"美"视为美学的唯一对象过于狭隘。19世纪初期,黑格尔的《美学》出版,将美学的研究对象确定为艺术。从当下的理论研究来看,这一说法尚
期刊
目的:探讨合理用药驾照式管理在中药注射剂使用中的应用效果。方法:医院从2020年1月开始采用合理用药驾照式管理进行中药注射剂使用管理,2019年为实施前,2020年为实施后,实施前后各随机选择655例使用中药注射剂患者为研究对象,统计实施前后的管理效果。结果:实施后中药注射剂月均使用金额、用药金额占全部用药金额的比例、患者人均中药注射剂处方金额等,显著低于实施前(P<0.05)。实施后中药注射剂超
钢/铝复合板兼具了钢的高强度、强韧性以及铝的质轻、耐腐蚀性强、导热性好等优点,被广泛应用于船舶制造、交通运输、石油化工等领域。然而,钢/铝复合板轧制过程中易出现变形不协调、界面氧化和结合强度低等问题。为了解决这些问题,本文提出了一种钢/铝/铝合金复合板“冷轧预制波纹+热轧平辊整平”的新型轧制复合工艺。同时利用有限元模拟与实验相结合的方式,研究了不同工艺参数对预制钢/铝波纹复合板界面变形的影响,并分
该试验旨在建立顶空-气相色谱串联质谱测定酱油和饮料中9种常见苯系物的分析方法。优化氯化钠加入量、顶空平衡时间和温度对测定结果的影响,确定最佳试验条件:氯化钠加入量3.0 g,顶空平衡时间30 min,顶空平衡温度70℃。在此条件下, 9种苯系物在1~100μg/L浓度范围内线性关系良好(R2≥0.997),方法检出限为0.015~0.037μg/L,定量限为0.050~0.123μg/L,加标回收
二维材料由于其超薄的物理尺寸、强面内共价键作用、超大的比表面积和表面原子的高曝光率可以广泛应用于制备电子/光电器件、超级电容器、Li离子电池以及柔性器件。降低二维材料的晶体对称性会导致高各向异性的晶体结构,进而导致高各向异性的光、电性能。这些各向异性的二维材料可应用于开发高性能电子和光学器件以及开展多体物理现象的研究,拓宽二维材料的应用范围。但目前主流高各向异性二维材料的发展面临挑战:光致氧化反应
本文从理论和实验两个方面围绕ZnO和GZO(Ga掺杂ZnO)薄膜的制备和光学与电学性能进行了系统研究,取得了一系列新的研究结果。将掺杂半导体的费米-狄拉克分布和Burstein Moss效应关联起来,计算出ZnO的导电类型。Van der Pauw结构中的霍尔效应已经应用于我们的理论估计,证实了我们的假设。在所有p型样品中都发现带隙变窄,而n型膜中记录了蓝Burstein Moss位移。原子力显微
财富管理转型战略是券商实现跨越式、高质量发展的重要方向与有益探索。随着佣金水平下滑、客户竞争加剧,券商传统经纪业务面临向财富管理转型的发展趋势,但由于客群规模有限与客户结构失衡并存、经营理念滞后与资产配置不足共存、管理水平欠佳与队伍专业不强同在等原因,财富管理需求基础不牢、供给条件不足、智力支撑不强。鉴于此,券商要实施财富管理转型策略,必须要从客群、产品、人才三个层面发力,真正夯实财富管理基础、完
采用气相色谱分析技术,对不同等级基础酒的风味组分进行分析。每个等级基础酒采集20个样品进行检测,结合香气活度值(odor activity value,OAV)和主成分评价分析方法,对比分析不同等级基础酒风味组分含量之间的异同。结果表明,三个等级基础酒中的重要风味组分在种类上差别不大,OAV高的物质均以酯类为主,三个等级基础酒两两进行主成分分析后的结果区分度良好,可为不同等级基础酒之间的数据化区分
商业数据界权包括确定其权利的性质和权利的归属。个人信息保护和数据安全法律体系的建成,为数据界权提供了新的逻辑起点和法律前提。数据界权首先应基于个人信息与数据、商业数据与公共数据等基本范畴的厘清。基于商业数据的固有性质以及工业产权的历史逻辑和制度内涵,商业数据与信息保护类工业产权具有深度的契合性,有必要将商业数据纳入工业产权序列,作为数字时代具有标志意义的一种新型工业产权,并可以成为与商业秘密相对称