面向信息检索的文本信息组织关键技术研究

被引量 : 0次 | 上传用户:marcomak99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索系统是人们获取信息必不可少的工具,但是随着互联网的日益发展,信息资源呈现出了爆炸式增长的趋势,对信息检索系统带来了巨大的挑战。如何高效地组织、处理和管理这些信息,并快速、准确、全面地从中获得用户所需要的信息,是亟待解决的问题。多项研究表明,合理的信息组织是解决这一系列问题的关键环节。本文致力于综合运用文本分类/聚类技术、文本索引技术提高文本信息组织的性能与自动化程度,实现海量数据条件下的文本信息组织系统。目前,这些关键技术和方法在实际应用中还存在着很多不足之处,主要表现在:(1)现有文本聚类算法研究集中在如何提高算法的准确率与效率,忽视了聚类算法的有效性,如参数难以确定,算法仅对特定的数据分布有效等,导致算法难以满足文本主题挖掘的需求;(2)文本分类需要利用大量的有标记样本进行训练,而有标记样本在实际应用中又难以获取,这使得分类器的泛化能力较低,分类精度不能满足文本自动归类的要求;(3)文本采用向量空间模型表示使得文本向量高维且稀疏,严重影响了文本分类的效率与精度;(4)现有的索引模型都是针对西方语言设计,而中文与西方语言之间存在着较大的差异,这些索引模型都无法对中文文本建立理想的索引。本文针对这些问题,采用理论分析、实验研究等手段,重点研究了这些关键技术中的算法与模型,并提出了相应的解决方法,取得的主要研究成果如下:(1)针对文本集主题结构挖掘中聚类算法的有效性问题,提出了一种基于动态阈值选择模型的无参数局部密度聚类算法DTSLD。该算法首先在小波去噪中分层滤波思想的启发下,建立了分层阈值选取的动态阈值选择模型,对算法参数自动选取;其次,在RDBKNN算法的基础上进行改进,为了避免全局参数对算法的影响,提高参数选择的正确性,不再使用全局统一的近邻参数k,而是利用动态阈值选择模型为每个数据点选择各自合适的近邻,形成更为自然的邻域;相对密度阈值参数δ的选择也利用动态阈值选择模型进行选取,但采取不同的策略执行;最后,在文档集主题挖掘应用中,利用多项式核函数改进了文档相似度计算方法,使之更加适合于高维文本数据的聚类应用。相关实验表明,该算法易于使用,并且对各种云状、流形数据分布都具备很好的适应能力,能够充分满足文本集主题结构挖掘提出的有效性要求。(2)针对文本分类技术在自动文档归类应用中面临的小样本问题,提出了基于半监督学习与数据剪辑的直推式文本分类算法――Tri-ed-training-Tsvm。该算法的设计思路是将半监督学习算法与TSVM算法相结合,在初始训练样本不足时利用半监督学习算法对未标记样本的学习能力,逐步扩大训练集规模。再利用扩大后的训练集对TSVM进行训练,得到一个相对准确的分类面,从而屏蔽TSVM算法中的参数N,避免人为设置的困难与误差;然后利用TSVM算法中最大化两类样本间隔的方法,成对交换边界样本标记的以获得最佳的分类精度。此外,由于初始训练集规模较小时,半监督学习算法在扩大训练集的过程中势必会引入大量误标记和噪声数据,为弥补这一负面影响,本文引入了基于最近邻一致性约束规则的数据剪辑(data editing)技术对学习过程进行误标记样本修正、噪声数据剔除等净化操作,以提高扩大后的训练集质量。(3)针对文本数据采用向量空间模型表示,文本向量高维稀疏导致文本分类性能降低的问题,对文本降维技术中的特征选择方法进行了研究。首先在Fisher线性判别模型的基础上,从特征选择的角度出发,经理论推导与相关定理证明,提出了一种稳定性高、特征选择能力强的FS特征选择算法。其次,通过对互信息方法的实验与理论分析,对其进行了改进,摒弃了原算法中以特征项对某个类别最高的贡献度作为最终评估值的方法,利用特征对各个类别之间贡献度的差异作为评估标准,从而使其特征选择能力得到了极大提升。最后通过相关实验,分析验证了相关算法在文档降维中的准确率与时间效率,并且证明了yang等人关于特征选择的经典论文中提出的特征文档频数与分类能力存在相关性的结论存在错误。(4)针对现有索引模型无法建立高效中文文本索引的问题,首次提出了一种符合中文语言特点的字词混合一体化索引模型。该模型以互关联后继树索引模型为基础,利用其保存字符先后关系的特点,通过对叶节点结构的扩展,增加了词汇索引信息,实现了中文字、词一体化混合索引;同时,针对互关联后继树索引模型检索效率较低的缺陷,通过对原模型中后继树层次的扩展,将“根节点-叶节点”结构扩展为“根节点-分支节点-叶节点”结构,克服了原模型仅能顺序查找无法使用快速定位技术的缺点,极大提高了检索速度。实验表明,本文提出的一体化混合索引模型成功结合了字、词索引模型的优点,具有创建速度快、查询效率高的特点。与基于字的索引模型相比,检索速度及查准率有较大提高;与基于词的索引模型相比,在查全率方面有明显进步。(5)综合运用本文提出的关键技术,基于流程化、组件化、层次化的先进设计理念,实现了一个面向信息检索的文本信息组织平台,并且该平台已在多项科研任务与工程实践中得到了应用。
其他文献
地面沉降是在自然和人为因素作用下,由于地壳表层土体压缩而导致区域性地面标高降低的一种环境地质现象,是一种不可补偿的永久性环境和资源损失。地面沉降具有生成缓慢、持续
这些年,国家越来越重视高校教育,后勤行政管理是各大高校改革的重要内容。此后,这项改革工作完全被纳入社会经济活动中去,从某种角度说,高校后勤管理十分重要。随着高校管理
每天打开电视机,几乎都会听到“壮丽的长江三峡;精美的大足石刻……”的广告词,并看到大卧佛、千手观音等图像,总会令我顿生兴奋,同时思绪万千,往事涌现。列入《世界遗产名录
长期以来,学者们一直在争论倾销与反倾销的合理与否,但这并不妨碍许多国家纷纷制定和实施反倾销政策。经过近百年的实践与发展,反倾销政策已逐步演变成了进口国限制进口、推
黑社会性质组织犯罪严重干扰一国的经济发展和社会稳定,故其历来是犯罪打击的重点。对黑社会性质组织犯罪案件开展的侦查活动,是整个刑事诉讼程序的重要阶段,也是惩治犯罪的
她三次远赴十四师皮山农场和和田地区皮山县开展支教和援教工作,传播优秀文化的同时把无私的爱倾注给了少数民族师生,她就是二师华山中学附属小学语文教师刘小丽。2013年,刘
<正>最近,国务院国资委对外发布《国务院国资委2009年回顾》,首次公开披露上年度央企履行社会责任的有关情况,意在回应央企垄断论,但其中的"央企税负过高"的结论却引起了一些
邹韬奋在担任中华职业教育社编辑股主任时,重视职业指导,形成了比较完善的职业指导思想.他厘定了职业指导的内涵及范围,明确了职业指导的重要作用,指明了职业指导的实施方法,
随着因特网的迅速发展,社会信息化程度越来越高。作为一种重要的资源,信息在依赖因特网进行传输时,信息安全成为首要问题。信息隐藏作为解决信息安全问题的新兴技术,已经成为