基于词共现的文档表示模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:beibei114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term b
其他文献
科学主义,指的是依照数学物理学的认识模式所作出的认识论方面的提升,并以理性自我意识作为哲学思考与构建真理的基点,以客观性、必然性作为知识标准的理论模式。近代西方哲
根据高等职业教育的培养目标,分析了《消防制图》课程改革的必要性,指出了当下《消防制图》课程教学中存在的问题,制定了《消防制图》课程教学目的和教学内容,提出了《消防制
劳资关系是社会组织内雇工与雇主之同关系的总称.本文主要围绕劳资关系、和谐劳资关系的界定及其特征,我国目前劳资关系方面存在的突出问题,劳资关系不和谐的成因进行简要分析,并
该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法
一个高效便捷的标注工具对树库建设起到至关重要的作用,该文在现有的基于句式结构的图解标注工具的基础上,针对其不足之处,进行了重新设计,加入词类和义项等标注信息,实现了
在传统的信息抽取中,模式匹配已经被证实为简便而有效的方法,而依存路径也是最为常用的模式之一。在槽填充任务中就有众多的参与者引入了以依存路径为基础的模式匹配方法;该文就
我国中学的写作教学存在教学目的越轨、考试设计错位、文体训练欠缺和能力培养不够四大误区。我国大学阶段应开设写作公共必修课。
学生选择教师教育专业的意向是制约我校教师教育专业建设的基本要素,是实现学生主体向专业者过渡的动力诉求,是培养和造就优秀教师、提高教育质量和建立和谐社会的必然要求。
该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程.该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料
了解大学生家庭期望与人际信任之间的关系。于2010-03以随机抽样的方法对昆明三所大学190人进行问卷调查,问卷包括:家庭期望问卷、信任量表。运用描述统计、t检验、相关分析等