基于多策略的维吾尔文网页识别方法

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户：lieren001

【摘要】

：

　　经过对大量维吾尔文网站的调查与分析，本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网

【作者】

：

阿力木·木拉提[1]艾孜尔古丽[2]杨雅婷[3]李晓[3]

【机构】

：

中国科学院新疆理化技术研究所,乌鲁木齐830011

【出处】

：

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD

【发表日期】

：

2016年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　经过对大量维吾尔文网站的调查与分析，本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网页的字符编码转换规则及原理，以此对不规范维吾尔文字符进行了相应的处理.之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法，其中后者融合了维吾尔文常用候选词语料库及向量空间模型(VectorSpace Model).使用三种不同类型的维吾尔文网页文本作为本研究的数据集，在此基础上验证了本文提出的网页识别方法，以及采用不同的方法进行了网页识别的实验.实验结果表明，基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳，反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram.所提方法对维吾尔文网页识别的整体性能达到90％以上，并验证了这两种方法的有效性.

其他文献

基于点关联测度矩阵分解的中英跨语言词嵌入

　　研究基于矩阵分解的词嵌入方法，提出统一的描述模型，并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源，提出跨语言关联词计算方法和两种点关联测度的计算方法：跨语言共

会议

关联词测度矩阵分解语言词义跨语言相似度计算嵌入问题目标函数

基于问题与答案共同表示学习的半监督问题分类方法

　　问题分类旨在对问题的类型进行自动分类，该任务是问答系统研究的一项基本任务。本文提出了一种基于问题和答案共同表示学习的问题分类方法。该方法的特色在于，利用问题及其

会议

《世说新语》的篇章连接词

　　本文标注《世说新语》的篇章结构,据此研究其连接词的显隐、语义及用法.研究发现：1)隐式关系(3346,81.9％)多于显式关系(786,18.1％),17类关系仅有3类(假设,选择,让步)显多隐

会议

世说新语连接词类关系用法同义篇章结构个案分析多义

I Can Guess What You Mean:A Monolingual Query Enhancement for Machine Translation

　　We introduce a monolingual query method with additional webpage data to improve the translation quality for more and more official use requirement of statis

会议

Sentence Alignment Method Based on Maximum Entropy Model Using Anchor Sentences

　　The paper proposes a sentence alignment method based on maximum entropy model using anchor sentences to align ancient and modern Chinese sentences in histor

会议

Chinese Hedge Scope Detection Based on Structure and Semantic Information

　　Hedge detection aims to distinguish factual and uncertain information,which is important in information extraction.The task of hedge detection contains two

会议

Semi-supervised Learning for Mongolian Morphological Segmentation

　　Unlike previous Mongolian morphological segmentation methods based on large labeled training data or complicated rules concluded by linguists,we explore a n

会议

知识图谱中实体相似度计算研究

　　实体相似度的计算有诸多应用,例如电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似

会议

知识图谱实体相似度计算方法集成学习模型Logistic回归噪声数据学习问题数据类型

The Construction of a Customized Medical Corpus for Assisting Chinese Clinicians in English Research

　　A great number of clinicians in mainland China are under increasing pressure to publish their research results on international journals,and they urgently n

会议

面向高考阅读理解的句子语义相关度研究

　　高考阅读理解选择题是基于背景材料，通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性，答案可能无法在背景材料中直接找到.

会议

基于多策略的维吾尔文网页识别方法

与本文相关的学术论文