基于汉字搭配的中文信息获取技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qq330525312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以关键词、短语、概念等特征项为基础的信息检索、搜索引擎、文本挖掘、信息抽取等信息获取技术得到广泛研究和应用。信息获取可从海量的、良莠不齐的数据中获取粗信息,并从已获取的粗信息中发现、判断并有效识别能反映客观事物特征、现象、本质及规律描述的有用的信息。由于中文的词语间没有分隔符,中文信息获取受限于汉语自动分词、特征提取与特征选择、特征项的索引与存储等预处理工作,时间和空间代价很高,结果正确率较低。随着信息数字化、网络化的发展,数据的丰富性、多样性与信息的过载、迷失的矛盾日益突出,为突破中文文本和Web信息获取的瓶颈,实现信息的快速搜集、准确鉴别和高效运用,利用汉字搭配技术获取信息是一条有效途径。搭配是指两个或两个以上的特征项所组成的语言模式,在词典编撰、信息检索等工作中已取得初步成效。汉语言的用字特点、词法规则、语法关系蕴含了丰富的信息,汉字搭配是一种语言模式,承载了其中的部分信息。定义汉字关联度的概念,通过引进频率、互信息、t-检验、2 χ统计和汉字关联度等统计量来量化和度量汉字搭配模式,研究表明,互有侧重的四种统计量及汉字关联度多角度地描述了汉字搭配模式。文档数据是人们获取信息的主要来源。   本研究利用量化的汉字搭配模式定义文本的汉字搭配矩阵,构建了非结构化中文文本的三元组表示方法,提出了适用于生语料的文本相似性度量算法M-similarity和基于实例的文本分类反馈学习算法G-KNN 等关键算法,构建了六元组表示的、基于汉字搭配的信息检索框架。基于汉字搭配的文本表示方法可以与经典的基于特征向量的文本表示法相互转换,但其复杂度和语义性优于经典的表示法。实验结果显示,在训练集规模较小且无需标注的情况下,提出的基于汉字搭配的机器学习算法也有较好的应用效果。利用汉字搭配信息表示非结构化中文文本,为解决同类问题探索了一种思路。WEB 网页是人们获取信息的另一重要来源。将汉字搭配及其相关统计量和基于汉字搭配应用的技术方法、算法和框架应用于Web 信息的获取研究,针对网页噪音引起的主题漂移问题,首先定义了Web网页或块的语义树及其操作,提出容错语义树构造算法SemTreeCreate,解决不规范的HTML网页的DOM 解析存在大量的广告与图片链接噪音及DOM 树的深度大、结点层次多、结点层次和子树间关系混乱等问题;然后,利用机器学习和信息过滤技术,设计一种基于内容的Web 网页噪音块的识别算法NoisyExploration,解决网页中大量文字噪音数据的识别问题;最后,提出主题发现和多主题识别策略,在无需额外知识支持的情况下,通过判断网页各块之间、网页块与整个网页间的语义相似性发现主题并识别多主题。最后,针对标准测试语料,设计并实现提出算法的实验系统,主要包含元搜索引擎和中文信息获取系统。应用实验系统的设计和实现不仅验证了提出的技术和算法,还发现了许多实际应用中的细节问题,丰富和完善了研究内容。
其他文献
证据理论是处理由认识的局限性所带来的不确定性问题的有力工具,它处理的证据来源于专家,但专家的知识经验往往是有限的,获取也较困难,且可能存在一定的主观性。粗糙集理论反映了
随着网络技术的发展,网络上电子可读文本的日益增加,呈指数膨胀的文本信息资源,使得如何准确有效地获取用户所需要的信息成为人们关注的热点,促进了文本处理领域的形成和发展。自
构件检索就是从构件库中检索出满足用户要求或接近用户要求的构件。随着构件库的不断增加,多构件库联合检索技术日益得到重视,成为构件检索新的发展方向。由于各个构件库分布
移动Ad Hoc网络中各节点可以自由移动、快速建网,形成与传统网络并行的独立网络,该网络具有了一些不同于传统网络的新特点,而这些特点使整个网络的管理面临了新的问题。本文来源
这是一个科学飞速发展的时代,借助计算机等工具以及人类历史上长期的知识积累,各个学科的信息越来越深入和系统,人们迫切需要将这些特定领域的知识进行系统化的分析和归类从而为
VoIP又称为IP电话,它突破了传统电话的范畴,是一种技术创新的通信服务业务。它通过语音编码和包交换的方式实现在IP互联网的上语音通信。它促进了网络资源利用,降低语音业务成本
随着信息技术的快速发展,数据在医疗、商业、民生、科研与军事等领域都呈现出爆炸式增长,数据密集型计算环境下数据挖掘算法的研究已被越来越多的人所关注。数据密集型计算环境
数字图像处理、分析与机器视觉是认知科学与计算机科学中的一个令人兴奋和活跃的分支,在人的感知、识别和理解中,形状是一个非常重要的参数,而链编码就是以此概念延伸的一种形状
随着彩铃业务的成熟和发展,如何有效地存储和管理大容量的铃音数据成为了一个重要的技术问题。本文提出新增铃音服务器网元作为集中式铃音数据存储方案,利用高效的磁盘缓存算法
流媒体正在成为推动未来宽带应用的主动力。但目前来讲流媒体的质量还不能令人满意。在传统的C/S模式下服务器很容易成为系统瓶颈,如何在Internet网络上提供大规模的流媒体内
学位