中文单词聚类的比较研究

来源 :第三届学术计算语言学研讨会 | 被引量 : 0次 | 上传用户:ft4200770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对无监督的中文单词聚类方法进行了比较研究,包括最大化平均互信息(MMI),基于功能词的聚类(FW),基于高频词的聚类(HFW)以及基于词类的聚类(WC).采用词性标注准确度以及语义准确度对聚类质量进行评估,最终MMI聚类效果最好,其词性标注准确度为79.1%,语义准确度可达49%,其它三种方法的词性标注准确度都超过了50%,语义相似度超出30%.将上述四种方法生成的词类引入无监督的基于对齐的汉语句法结构自动推导后,准确率、召回率以及F值都提高了1%左右.
其他文献
近几年,党中央、国务院采取了一系列支农惠农的重大政策,极大地调动了广大农民的积极性.加之粮食连续较大幅度增产,特别是"无公害食品行动计划"向纵深推进,农民收入较快增长,
青岛地恩地生物科技有限公司由青岛地恩地集团和香港百宝集团共同投资组建,已完成投资250万美元,是青岛市高新技术企业.公司目前主要从事微生物制品的研制和开发,集科研、生
会议
本文采用了全信息自然语言理解的方法论对人机对话系统语音识别结果进行处理,发现并纠正其中的错误,从而提高识别的正确率和可读性.实验初步应用于863课题"奥运多语言智能信
《新文学史料》一九八○年第一期,耶林《给丁玲的四封信》,我核对信的原件,发现漏掉一段文字。第九十五页左栏第九行,“天通庵车站(”车站“错抄成”东路“)同济路张眺收”
山西省石灰性土壤的养分资源特征,曾有缺磷少氮钾有余的表述.中低产田比例大(占2/3),有机质含量偏低(为1.15%~1.43%),氮肥利用率不高(约30%~35%),NH3挥发严重,仍是目前影响当地农业
会议
本研究应用SDS全细胞蛋白电泳技术对分离自三叶草、含羞草和猪屎豆根瘤菌进行聚类分析,并对几个新类群的中心菌株及特殊菌株的16SrDNA全序列分析进行了研究,得到系统发育树状
会议
本实验采用黄河流域及以北地区包括新疆在内的8个省市自治区97株苜蓿根瘤菌对内蒙不同紫花苜蓿品种进行接种效果初筛、复筛及田间小区试验.采用双层钵法以蛭石为介质,加适量
会议
本文描述了一套面向Web基于XML的中文语言处理平台,命名为"语言技术平台LTP".LTP包含5项主要内容:语言技术置标语言LTML、基于DOM Tree的一套DLL模块、一套可视化工
会议
本文扼要介绍了目前国内外关于词汇语义相似度计算的研究现状,阐述并分析了几种具有代表性的计算方法,并对目前较为流行的基于SUMO、HowNet的词汇语义相似度计算进
会议
人的可靠性研究是系统可靠性研究的一项重要内容.通过研究人的可靠性在应用中的特点,以及导致人为失误的可能情况,提出了提高人的可靠性的基本方法、人的可靠性研究面临的困