文本信息度量研究

被引量 : 0次 | 上传用户:sam8899138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
度量是用来刻画对象之间相互关系的定量描述。在文本信息处理中,不同语言学粒度上的信息度量研究都有重要的理论价值和广泛的应用背景。近些年,Web2.0的蓬勃发展对文本信息度量提出了新的挑战。复杂多样的网络数据以及不规范的网络文本书写使得许多传统的自然语言信息度量方法不适用于互联网环境。比如,基于词典的词汇相似度度量无法很好地处理快速出现的新词;基于句法树的句子相似度度量无法很好地处理书写不规范的用户查询以及网络文档标题。特别地,中文网络语言的不规范性对中文自然语言处理提出的挑战更为明显。另外,传统基于网页链接分析的相关性度量方法并没有很好地利用社会协同百科全书的结构特点,因此无法解释概念之间的相关性。针对新形势下文本数据的特点,本文在四种不同的信息对象层面上提出了新的信息度量方法并进行了应用实现,具体如下。在短语层面,本文提出了一种短语非合成性度量,这种度量基于信息距离理论,具有完善的理论依据,可以用来判断一个给定的单词序列(在特定语境下)的合成性。由于所需的统计量来源于整个互联网,因此具有很强的适用性和鲁棒性,可用于问答系统后处理以及复杂名字实体识别。在概念层面,本文提出了一种新的网络百科全书(比如维基百科)概念相关性度量方法。和以往基于网页链接分析的方法不同,这种方法充分利用了维基百科的结构特点,使得其不仅能度量概念相关性,而且能用百科中的分类来解释概念之间的关系。在句子层面,本文提出了一种基于模板集的度量方法来计算自然语言问题之间的相似度。针对疑问句中虚词和实词的特点,我们采用硬模板和软模板来分别处理它们。这种度量可以在不借助句法树的前提下刻画单词间长距离的关系,并可以被有效地应用到问题分类任务中。在句子关系层面,本文提出了一种基于核方法的句子对类比相似度度量。这种方法将句子关系映射到重写规则空间,并用该空间上的内积来表示其相似度。这种方法可以在不借助句法树的前提下从结构上刻画句子关系的类比相似性,并在同义句识别以及句子蕴含关系识别上取得一流的准确率。
其他文献
目的探讨3~6岁幼儿粗大动作发展特点以及与体质健康水平的关系。方法采用粗大动作发展测试(Gross Motor Development Test,TGMD-2)对289名幼儿进行粗大动作能力评估;以《国民
<正>企业跨国并购是实现企业发展、走向国际市场的必然要求,我国近几年来也已有多家国内企业兼并了海外著名的大公司,比如联想收购了IBM的PC业务,中石油收购哈萨克斯坦石油公
人的主体性思想是一个恒古而常新的话题。在哲学史上,主体性问题一直随着哲学主体的转换而不断发展。马克思哲学作为人类解放学说,尤为关注人的主体性的解放和发展。深入研究马
中国宽幅数码喷印设备制造兴起于20世纪90年代末期,在过去的十几年间喷印设备在广告喷绘领域得以飞速的发展。随着数码图像处理及喷印技术的高速发展以及广告喷绘行业竞争日益
论文全面、系统地研究了冷轧带肋钢筋的矫直工艺、矫直理论及矫直切断机的基本形式、结构、参数和选型方法,确定了GTK6/12数控冷轧带肋钢筋矫直切断机总体设计方案。论文运用
<正>一、网络财务报告优势分析无论从网络财务报告的质量还是目标分析,XBRL都是企业现行财务系统的好助手,能很好的解决企业传统财务报告的弊端。首先,XBRL财务报告能做到实
我国现行刑法中有大量的行政犯罪,而近几年出台的刑法修正案更是带有明显的行政违法行为犯罪化的色彩,近几次的刑法修正案将部分行政违法行为规定为刑事犯罪,或者降低部分行
<正>舌诊是中医诊察病情独具特色的诊法。舌象能较客观地反映疾病中机体的整体反应状态,是辨证的重要依据,各种舌象对各证素的判断具有不同的意义。
<正> 九月下旬在京召开了首届北京史学术讨论会暨北京史研究会成立会。有七十多个单位一百二十位专业和业余的北京史研究工作者参加了会议。会议收到学术论文五十篇,内容涉及
本文综述了复杂体系中固相萃取前处理方法、磁性分子印迹聚合物和磁性介孔碳的制备技术及应用等方面的研究进展;制备了以麦芽酚为代表的吡喃类食品添加剂分子的新型磁性虚拟