中文信息处理中若干技术的研究与实现

来源 :辽宁科技大学 | 被引量 : 11次 | 上传用户:chentong85952000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intenet迅猛发展,各种资源不断增多。为了快速、高效的查找信息,信息处理以成为当前重要的研究领域。针对信息处理涉及的内容,本文对中文信息处理中的若干关键技术进行了研究,主要研究内容和贡献如下:实现了一种基于句法词典的句法分析方法。通过把文法规则映射为特征词,把句法分析转换为利用特征词生成句法判定树,使概率方法和规则方法有效的结合在一起。在封闭的测试中,该方法获得了89.40%的查全率,87.13%的查准率。提出了一种利用样本距离,改进K-means聚类的方法,有效地避免了初始点的选择所带来的误差,以及噪声和孤立点的影响。介绍了一种把多种语料库存入字典结构,以及使用此字典结构的方法;对特征词,使用多层hash存储,结合最大向前匹配,实现了快速分词算法,1G内存下,分词速度到2M/S;在实现基于隐马尔可夫模型的词性标注同时,结合平滑算法,标注正确率达到86%,排歧正确率达到82%;在实现基于KNN分类算法中,使用CHI统计方法选取属于该类的特征词,同时把该类的文档加载到其后,解决了信息冗余问题;通过利用句子的特性,计算句子在文本中的权重,简单实现了基于统计的机械自动文摘;通过采用向量空间模型,对输入语句进行同义词扩展,对文档采用倒排结构存储,实现了一个简单的信息检索。
其他文献
近年来,随着企业业务的扩展,企业中应用数据的种类和数量都急剧增长,对数据的保护变得越来越重要。数据备份是数据保护最重要的手段,因此对它的研究具有重要的现实意义。 由于
现实的工业生产中,有一类通过传送带将待加工工件送至含有有限容量缓冲库的加工站并进行加工的自动化制造系统,称之为传送带给料加工站(Conveyor-Serviced Production Statio
因特网的迅速发展改变了人们的工作方式和生活方式,面对因特网上网页数量的急剧增长,如何在浩瀚的网页海洋里获取需要的信息成为了一个重要问题。由此产生了以谷歌、百度等为代
随着计算机嵌入式技术的快速发展和移动技术的不断进化和完善,嵌入式移动设备的性能得到很大的提高,同时各种应用对实时性的要求也越来越高。由移动计算、实时应用结合传统数
随着网络和数字技术的迅速发展,数字产品的版权保护成了一个亟待解决的问题。广播加密系统中,叛逆者追踪方案可以追踪到盗版源,从而阻止盗版行为发生,保护了版权所有者的合法
自动摘要是利用计算机自动地从原始文献中提取摘要,减少文档的过程。它是计算智能,机器学习和自然语言处理研究方向的一个部分。论文以印度尼西亚文的自动摘要展开研究。该研究
随着现代工业的快速发展,对设备的安全稳定运行要求越来越高,故障诊断技术得到了广泛的应用,而与此同时,传统的诊断技术已经很难适应工业生产的需要。正是在这样的背景下,本文将时
目前,一些企业偷税漏税手段复杂、花样翻新,成为税务稽查的一个难题。传统的稽查选案是以举报信息为主要依据的,这很大程度上依赖于专业的稽查人员根据以往的工作经验和某些直觉
随着社会信息化的不断发展,人们对Web信息管理系统的需求也不断增加。由于这类系统各模块的相似度比较高,因此开发人员在开发这类系统时会出现重复性编码工作。国内外很多研
随着信息技术的发展以及企业服务意识的提升,呼叫中心得到了广泛的应用,例如为用户提供如天气预报、股市行情、产品的最新报价、查询费用等信息。然而当人们希望在比飞机航班或