外国人汉语虚词辅助学习系统研究

来源 :中国中文信息学会,沈阳航空工业学院 | 被引量 : 0次 | 上传用户:big_moth123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于外国人汉语虚词学习的复杂性和迫切性,以及计算语言学和对外汉语教学对汉语虚词的研究提出的新问题和新要求,本文提出在对外汉语教学过程中初步建立一个外国人学习汉语虚词计算机辅助学习系统的构想.首先分析了建立汉语虚词辅助学习系统的紧迫性和必要性;其次,针对外国人学习汉语的特点,提出了系统设计的原则和组成模块的构成.
其他文献
本文基于条件随机域模型处理中文命名实体中的人名、地名、组织机构名识别,综合利用外部特征,研究了字一级包括外国译名在内的中文人名、地名、简单组织机构名的识别,采用了利用互信息获取外部统计词典并建立外部特征的方法.初步实验结果表明,外部特征的加入可以弥补训练规模的不足、显著提高识别效果.
分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22%和83.13%.
本文给出了基于非连续短语的统计翻译方法,翻译的基本单元从连续短语扩展到带有间隔的非连续短语,这种方法可以更好地解决句子中词语翻译时的上下文依赖问题.在形式上,非连续短语方法和层次型短语方法相似,不同之处在于前者只允许包含一个非终结符的短语(如turn on),因此,非连续短语方法抽取的短语数量较少,搜索效率也得到提高.初步实验表明,非连续短语方法的翻译结果是令人满意的.
传统的网页分类大都基于内容,这种方式采用字词特征项匹配的方法,没有考虑网页的结构信息.为了充分挖掘网页的结构特征,本文提出了网页按形式分类的机制.以往关于形式分类的研究大都基于普通文本,但是网页文本不同于普通文本,它具有URL和HTML标签等对网页结构有较大影响的特征.本文从URL和网页的HTML标签中提取特征,并借用了普通文本形式分类中使用的部分特征项作为网页形式分类的特征集合,最后使用SVM分
条件随机域模型通过计算标注序列在观测序列下的条件概率进行标注,解决了传统模型(如隐马尔科夫模型和最大熵马尔科夫模型等)中存在的标注偏差问题,得到了更好的标注效果.时间信息识别是文本序列标注的一个典型代表,本文旨在通过CRF在英文时间信息识别的应用,从理论上深入分析,以及进行对比实验比较条件随机域与其他标注模型的效果,结果验证了理论和实验的一致性,CRF更适合解决序列标注问题.
命名实体识别是中文信息处理的一个重要问题.本文根据篇章中利用互信息识别命名实体的方法,引入词性互信息和有距离的匹配策略,通过词表层信息和有距离匹配策略的融合方法识别出面向产品类的命名实体.同时融入一些知识和规则方法,取得了很好的效果.
"尹湛纳希辞典"是基于编纂的新型、学习型词典.本文探讨了编纂"尹湛纳希辞典"的收词、释义、用例等相关问题,提出了初步的处理方案.
为了明确用户的查询需求,很多搜索引擎和全文数据库提供了相关词提示功能.本文简要介绍了Web信息检索中相关词提示的获取技术,并对相关词提示效果进行实际调查分析.从关键词库中随机抽取若干关键词,在选定的搜索引擎和全文数据库上进行信息检索,获取抽样关键词的相关提示词.通过分析,给出相关词提示在改善检索效果和用户满意度方面的综合评价.
词序列核函数是Convolution核的一种,它处理的对象是离散的词序列.词序列核函数的计算过程不需要显式地构造特征向量,而且具有良好的复合特性,在自然语言处理领域有广泛的应用.传统的词序列核函数没有考虑到语义信息,本文对传统的词序列核函数加入了特征选择和语义扩展,得到一种新的核函数.本文使用该新函数进行实体关系自动抽取的实验,并与基于特征向量的方法和传统的词序列核函数作了比较.结果证明新函数的效
适应信息技术的发展,我们拟建立一个新的语义分类体系,为开发编纂建立语义分类体系基础.希望建成一个能够满足人机两用,严格区分上下位关系和同义反义关系的层级语义体系.