【摘 要】
:
词汇复述研究旨在为词汇获取复述。词汇复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词。本文定义了两个问题:(1)动态的词汇复述获取;(2)构建复述词典。
论文部分内容阅读
词汇复述研究旨在为词汇获取复述。词汇复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词。本文定义了两个问题:(1)动态的词汇复述获取;(2)构建复述词典。对于前者,我们提出了一种获取上下文相关词汇复述的新方法,它包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认。后者是在我们在分析前一部分方法问题的基础上提出的,它主要包括:基于句法的候选复述词的获取及其二元分类的复述词确认。这两个问题是从词汇复述的两个方面进行研究,它们的相同之处在于都是获取上下文相关的词汇复述,不同之处在于:(1)前者是动态的,后者为静态的;(2)前者使用的上下文是不确定的,后者是确定的;(3)前者针对的目标词是任意的,后者只针对动词。对于我们定义的两个问题的解决方法,实验结果表明:(1)对于动态的词汇复述获取,利用二元分类的方法进行复述确认是有效的,其F-值达到0.6023;(2)基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3个正确复述词;(3)对于构建复述词典,利用二元分类的方法进行复述确认是有效的,它的准确率达到70.35%;(4)我们构建的复述词典是有效的,它的覆盖效果达到36.57%;(5)多数通过我们上下文相关的方法获取的复述是上下文相关的,它们不能通过上下文无关的方法获取。
其他文献
RFID(Frequency Radio Identification,射频识别)是一项基于计算机与通信的综合性科学技术,它利用射频信号通过空间耦合对目标物体进行非接触式自动识别。由于标签的灵便性和
无线传感器网络是由一组传感器节点以自组方式构成的无线网络。无线传感器网络的应用前景非常广泛,主要表现在军事、环境、健康、家庭、商业等领域。随着无线传感器网络应用
近年来,流媒体在互联网上大量应用,然而由于传统C/S模式过分依赖媒体服务器的性能和带宽,使得流媒体的播放质量并不让人满意。为了解决这个问题,P2P技术被引入到流媒体应用中
随着实验技术的高速发展,大量的实验数据不断被获得,基于这些实验数据各种心肌细胞模型相继被创建和完善。如何让这些细胞模型发挥更大的作用成为了本文的一个出发点。本文对
纸币识别器已成功运用于各种自助服务设备,如何以一种有效的方式对其进行在线监控与升级(主要升级识别算法,纸币特征数据库)是我们急需要解决的一个问题。本文通过分析比较嵌
当今世界正处于信息化时代,信息网络对人类的经济、政治、军事等方面产生着巨大的影响。空间网络作为信息网络的一部分,对一个国家的发展战略有着特殊重要的意义。因此,如何保证
在科学技术日新月异的今天,人类的发展进程正在大跨步前进。与此同时,世界范围内生产生活的举动也在随着科技的进步而加快频率。伴随着全球生产力的提升,人类的交流活动以及
随着互联网技术高速发展,网络上存在的各种文本数据与日俱增。大量冗余、不规范且内容丰富的文本为我们进行信息过滤、浏览和查询等操作带来了极大的困难。文本聚类在数据挖
在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少