自动分类中的文档表示及其改善方法研究

来源 :信息技术 | 被引量 : 0次 | 上传用户:dingyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档表示(Document Representation)是对文档的主题内容进行揭示、描述的结果,根据文档的内容得到其文档表示是对文档进行自动分类的前提。对自动分类领域中常用的文档表示方法——向量表示法、语言模型表示法和图型表示法等进行了总结,并对四种改善文档表示效果的方法,即同义词扩展、共现信息的应用、句法信息的应用、语义信息的应用等进行了讨论。
其他文献
懂dong了解,明白:一看就~,~得一点医学.(第10版)
现有的词语语义相关度算法大多单纯依赖于语义相似度算法,没有充分利用词语间的语义关系,导致其存在局限。在充分挖掘词语间的隐含语义关系基础上,将语义关系应用于语义关联
在临床中对于糖尿病的治疗的方式方法较多,主要分为两类即中医治疗与西医治疗,中医治疗主要对病情辩证后用药,行对症治疗,而西医则采用相应的降糖药进治疗。中 药起效慢,但药
主要通过PLD算法确定神经网络中隐含层神经元的数目及连接权值,并通过Matlab随机模拟生成一个二维三类线性可分集,用传统的BP网络和本文提出的PLD算法分别对其进行分类实验。
基于信息融合的思想,简介了独立分量分析方法;以Matlab为辅助工具,应用独立分量分析方法中比较成熟的快速算法FastICA,给出了语音信号分离的独立分量分析方法的具体途径,并对其分
在已有去块滤波算法的基础上,根据人类视觉系统的特点,提出了一种改进的、以块边界为单位的后处理去块滤波算法。该算法能以较少的硬件资源得到更好的视觉效果。文中还给出了对应的硬件实现结构,在使用较少的存储单元情况下,仿真结果仍然可以达到H.264视频实时处理的频率要求。
在进行负荷模式的日相关性分析中,模糊相似优先比矩阵法的元素含义不是十分明确,现给出了一种电力系统负荷模式的日相关性模糊聚类分析方法,该方法具有意义明确,计算速度快和占用
新生儿发热与成人发热有着非常大的差别,不仅发病几率存在一定的差异,对于各种 药物的承受能力也有着巨大的差距。许多父母在遇到新生儿发热问题的情况下,可能会 考虑使用常
针对波束空间预处理算法进行了深入的研究,给出了波束空间算法的原理和要求及其优势,并对其中的DFT波束法进行了研究,给出了基于DFT波束法的空域LMS算法。最后通过计算机仿真
基于有限自动机的多模式匹配算法(DFSA算法),设计出同时识别多种数的有限自动机。并给出便于实现的状态图和关键c++代码。