基于多策略的维吾尔文网页识别方法

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户:lieren001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理.之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(VectorSpace Model).使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了本文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验.实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram.所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性.
其他文献
  研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共
  问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。本文提出了一种基于问题和答案共同表示学习的问题分类方法。该方法的特色在于,利用问题及其
会议
  本文标注《世说新语》的篇章结构,据此研究其连接词的显隐、语义及用法.研究发现:1)隐式关系(3346,81.9%)多于显式关系(786,18.1%),17类关系仅有3类(假设,选择,让步)显多隐
  We introduce a monolingual query method with additional webpage data to improve the translation quality for more and more official use requirement of statis
会议
  The paper proposes a sentence alignment method based on maximum entropy model using anchor sentences to align ancient and modern Chinese sentences in histor
会议
  Hedge detection aims to distinguish factual and uncertain information,which is important in information extraction.The task of hedge detection contains two
会议
  Unlike previous Mongolian morphological segmentation methods based on large labeled training data or complicated rules concluded by linguists,we explore a n
会议
  实体相似度的计算有诸多应用,例如电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似
  A great number of clinicians in mainland China are under increasing pressure to publish their research results on international journals,and they urgently n
会议
  高考阅读理解选择题是基于背景材料,通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到.
会议