论文部分内容阅读
近年来,以关键词、短语、概念等特征项为基础的信息检索、搜索引擎、文本挖掘、信息抽取等信息获取技术得到广泛研究和应用。信息获取可从海量的、良莠不齐的数据中获取粗信息,并从已获取的粗信息中发现、判断并有效识别能反映客观事物特征、现象、本质及规律描述的有用的信息。由于中文的词语间没有分隔符,中文信息获取受限于汉语自动分词、特征提取与特征选择、特征项的索引与存储等预处理工作,时间和空间代价很高,结果正确率较低。随着信息数字化、网络化的发展,数据的丰富性、多样性与信息的过载、迷失的矛盾日益突出,为突破中文文本和Web信息获取的瓶颈,实现信息的快速搜集、准确鉴别和高效运用,利用汉字搭配技术获取信息是一条有效途径。搭配是指两个或两个以上的特征项所组成的语言模式,在词典编撰、信息检索等工作中已取得初步成效。汉语言的用字特点、词法规则、语法关系蕴含了丰富的信息,汉字搭配是一种语言模式,承载了其中的部分信息。定义汉字关联度的概念,通过引进频率、互信息、t-检验、2 χ统计和汉字关联度等统计量来量化和度量汉字搭配模式,研究表明,互有侧重的四种统计量及汉字关联度多角度地描述了汉字搭配模式。文档数据是人们获取信息的主要来源。
本研究利用量化的汉字搭配模式定义文本的汉字搭配矩阵,构建了非结构化中文文本的三元组表示方法,提出了适用于生语料的文本相似性度量算法M-similarity和基于实例的文本分类反馈学习算法G-KNN 等关键算法,构建了六元组表示的、基于汉字搭配的信息检索框架。基于汉字搭配的文本表示方法可以与经典的基于特征向量的文本表示法相互转换,但其复杂度和语义性优于经典的表示法。实验结果显示,在训练集规模较小且无需标注的情况下,提出的基于汉字搭配的机器学习算法也有较好的应用效果。利用汉字搭配信息表示非结构化中文文本,为解决同类问题探索了一种思路。WEB 网页是人们获取信息的另一重要来源。将汉字搭配及其相关统计量和基于汉字搭配应用的技术方法、算法和框架应用于Web 信息的获取研究,针对网页噪音引起的主题漂移问题,首先定义了Web网页或块的语义树及其操作,提出容错语义树构造算法SemTreeCreate,解决不规范的HTML网页的DOM 解析存在大量的广告与图片链接噪音及DOM 树的深度大、结点层次多、结点层次和子树间关系混乱等问题;然后,利用机器学习和信息过滤技术,设计一种基于内容的Web 网页噪音块的识别算法NoisyExploration,解决网页中大量文字噪音数据的识别问题;最后,提出主题发现和多主题识别策略,在无需额外知识支持的情况下,通过判断网页各块之间、网页块与整个网页间的语义相似性发现主题并识别多主题。最后,针对标准测试语料,设计并实现提出算法的实验系统,主要包含元搜索引擎和中文信息获取系统。应用实验系统的设计和实现不仅验证了提出的技术和算法,还发现了许多实际应用中的细节问题,丰富和完善了研究内容。