基于构成模式的汉语机构名识别

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:tcrct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语机构名识别是现代汉语未登录词识别中最难实现的一项,至今未能找到十分令人满意的解决方法。本文提出了一种基于构成模式的汉语机构名识别方法,其基本思想是根据机构名的构成模式,建立模式的转移矩阵,在转移矩阵的基础上用自动机算法实现中文机构名的自动匹配。
其他文献
本文旨在介绍台湾客语方言书面语语料库系统为一个基于后端架设的资料库及前端使用者介面所架构成的语料库平台,及建构此语料库之后设语言、介面功能。目前语料库收录约670篇文章,网页版介面已开放输入文本功能,近期内将完成网页版查询、批次修改及管理等功能,以提供研究者使用此线上语料库进行客语语意、句法、对比分析、应用教学等学术研究。
本文基于蒙古语语音合成语料库考察其语句内部的音高变化模式和韵律短语的切分线索问题.研究结果初步表明,在正常朗读条件下:(1)一个蒙古语句子在音调层面上通常可以切分成一个或多个相对独立完整的音高曲拱(pitch contour).一个音高曲拱一般有且仅有一个音高重音(pitch accent).在音高重音之前,音高通常会逐步上升,并在音高重音附近达到其峰值,然后逐步下降,并一直延续到音高曲拱的结束位
传统的译本比较研究只关注文本本身,有时也涉及译者问题,而对于文本和译者之外的译本文化生态环境极其跨文化交际功能的实现等问题关注较少。本文以清乾隆年间文人沈复的《浮生六记》的三个英译本为研究对象,对各译本中和原著对应的316个文化负载信息进行语料统计分析,归纳译者的翻译策略:之后对译者选择翻译或复译的原因进行分析,以说明译者在翻译过程中的策略选择;接着本文研究三个译本产生及存在的背景变量对译本及其实
在近代中国的历史上,《泰西新史揽要》经过李提摩太翻译后,由西方一部乏味的三流作品变成了中国最风行的读物。本文拟从读者批评的角度评析该译作的风行之原因和影响,说明是由晚清的历史现状和近代中国对西学的需求而引起举国上下全力争诵的局面。
本文以律师事务所外宣广告为例,通过自建小型语料库对英译文和相对于目的语文化语境下的可比文本进行了量化比较分析。结果显示,译文与可比文本在语篇信息性、视角、文体风格等方面体现出两者在信息功能与呼唤功能上存在某种程度的差异。通过对差异及原因的分析,本文目的在于探索一更加实用、有效的手段应用于应用型文本的翻译批评与实践。
本文通过对咳嗽声特性的分析,首先利用短时过零率和短时能量对咳嗽声进行端点初步检测,然后提取咳嗽的Mel频率倒谱系数作为特征参数,使用隐马尔可夫模型进行训练,建立咳嗽模板库。对所获得的234个样本进行训练和测试性识别,其中78个为训练样本,两组咳嗽测试样本和两组声音测试样本各为39个,识别系统把测试组咳嗽正确识别率为85.53%,把测试组声音错误识别为咳嗽的概率为7.89%。实验证明,通过将咳嗽声的
字知识库是汉语理解处理不可缺少的资源,HNC的字知识库以描述汉字的动态组合知识为中心内容。HNC字知识库内首先定义了单用系数和组词系数来描述汉字的组合能力,然后具体描述汉字的组合知识。对汉字组合知识的描述有两个方面,一是跟什么样的概念或词语组合,二是组合之后的结果是什么。如果组合之后形成能充当特征语义块的词语,那么就要描述其句类和相应的句类知识。字知识库的建设需要跟词语知识库和小专家库的建设密切配
1994年10月国家三部委颁布了《关于开展普通话水平测试工作的决定》和《普通话水平测试等级标准(试行)》,有关部门发布了《普通话水平测试大纲》。通过几年的实践,《普通话水平测试等级标准(试行)》经国家语言文字工作委员会再次审定作为部级标准,于1997年12月5日正式颁布。作为国家的一个法定的标准,只有“语音标准”、“语调自然”、“表达流畅”、“发音基本标准”、“发音不到位”、“动程不够”、“调值不
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一.为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5千万条查询日志进行了分析.我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析.分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义
实体关系抽取是信息抽取中的一个关键任务,其目的是找出文本中实体对之间的语义关系。本文阐述了一种改进的基于树核函数的实体关系抽取方法,在路径包含树的基础上,加入了与实体相关的语义信息,并对原有的树进行裁剪,消除一些冗余结构。在ACE 2004语料上进行实验,性能有了明显的提高,F值达到了71.99%。