弱指导的统计隐含语义分析及其在跨语言信息检索中的应用

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:realg007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种语义聚类和扩展的新方法,称为有指导的统计隐含语义标引(SPLSI)算法.该算法能基于双语语料,通过机器学习来自动进行语义聚类,生成词间相似度矩阵.和以前的算法相比,SPLSI算法不仅在聚类意义上更加明确、降类的过程更容易控制,而且降低了时间和空间复杂度.基于SPLSI算法,实现了跨语言信息检索领域的三个系统:多语言文本分类,跨语言文本检索,跨语言关键词扩展.实验结果显示,在准确率、召回率、平均运算时间等多个评价指标中,SPLSI均优于以前的各种算法.
其他文献
20世纪80年代,在国家"军转民"的大背景下,我院在积极承担军用核动力研究任务的同时,又结合行业特点和自身优势,积极开发核技术应用领域的技术和产品.通过近20年的努力,形成了
会议
Web关键资源发现是指在Web数据中发现与主题相关的关键资源(key resources).研究表明,关键资源不仅与网页的内容有关,还与网页间的链接结构紧密相关.本文研究如何有效地利用
XML语言的一个突出的优点就是可以成功的解决资源共享问题,给人们的科学研究带来了广阔的发展前景.针对目前手工完成XML转换这一现状,本文将自动标引技术引入,先对文献进行标
介绍了美国计算同辐产业经济效益的方法和同辐技术在工业、农业、医疗中应用的经济效益.并对中国、美国和日本三国的经济效益做了比较,1997年美国同辐产业经济效益达到了1197
冬天气候寒冷,人们很容易感受外邪、风寒,引起感冒、鼻炎等上呼吸道感染疾病。现介绍5种抗寒防病的方法:1.常喝白开水冬天气候干燥,人体极易缺水,常喝白开水,不但能保证机体
本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的
会议
基于网页上下文分析的图片检索是指利用HTML文档源代码,通过分析文档结构自动获取图片的说明,并以此创建图片索引的一种图片检索方法.在本篇论文中我们提出了一种能更加有效
会议
“散乱空中千年雪,膝胧物上一层纱,纵看晴景如看雾,不是春天亦见花”。这是我国唐代著名大诗人白居易,由于纵酒过度,致使晚年眼疾严重,备受病患之苦,而在《病中二首》中的自
传统品牌企业对网销市场执著追捧,源于其对市场可观前景及未来发展趋势的把握。面对不断变化的线上市场环境,众多品牌企业如何选择适合自己的发展路径?又如何突破多渠道运营下的发展困局?    随着网购市场的进一步规范和迅猛发展,李宁、飞利浦、安踏、真维斯等不少传统品牌相继进入B2C市场。几年下来,这些传统品牌在电子商务市场中有得有失,并没有出现像当当、京东等这样的大企业。在2008年和2009年金融危机爆
本文以参加文本检索会议中有关跨语言信息检索(Cross-Language Information Retrieval,CLIR)任务的评价作为研究背景,提出了一个面向英汉的CLIR系统的实现框架,并由此引出有
会议