【摘 要】
:
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定
论文部分内容阅读
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。在这繁杂的信息中,如何快速地找到用户需要的信息,如何有效地利用这些信息,文本分类起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免特征选择和大量预处理过程。本文首先介绍了文本自动分类在国内外的研究现状;其次对主流的文本表示模型进行了分析比较,研究了N-gram模型的参数N选取、平滑算法等内容;再次对系统的各个功能进行讨论,对系统的核心功能分类器进行了详细论述。本文选择了一种链状朴素贝叶斯分类器,这种分类器通过与N-gram模型相结合,弱化N-gram模型的独立性假设。实验表明,这种方法能够取得良好的分类效果;接下来对系统开发的关键点进行了展开,并详细介绍了评价方法;最后给出了实验结果及其分析。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。
其他文献
Web服务作为一种新兴的Web应用模式,是一种崭新的分布式计算模型,同时也是Web上数据和信息集成的有效机制,目的是要解决异构平台上的数据和应用的整合与共享问题。然而,现有
栅格地图是地理信息系统中一大类数据类型,对它的版权保护有着不可忽视的重要意义。数字水印是目前用于数字产品版权保护的最有效手段之一。本文重点研究了针对栅格地图的数字
摘要:随着无线设备的普及与广泛应用,学术界关于无线多跳网络的研究方兴正艾,一般来说,无线多跳网包括无线自适应网、无线mesh网、无线传感器网络,无线多跳网络避免了集中式网
本论文的工作是针对大学4年级嵌入式系统实验和学科建设的实际需要而进行的。本文对ARM处理器及其寄存器结构做了认真的分析,对于文中涉及的硬件平台和基于ARM720T的EP7312处
本文分析了目前MPLS环境下的各种负载平衡及QoS路由算法,其中最重要的是TeXCP(具有流量工程的拥塞控制协议)。该协议是Sigcomm05提出的一种在MPLS网络中针对best-effort业务
数字遮片技术从产生至今已被广泛的应用于电影的特效制作和数字图像合成中。传统的数字遮片技术仅能处理物体边缘的遮挡透射关系,不能反映物体的反射、折射等光学现象。这使
随着国家现代化建设进程的加快,对各类工程机械的需求量迅速增大,起升设备作为工程机械中的主要成员,频繁发生的事故一再提醒人们加强对该类设备的安全监控。 传统的安全监控
随着计算机技术和定位技术的快速发展,许多厂商都研制并生产出了适用于个人或者特殊行业的移动定位产品,这为人们的出行提供了极大的便利,尤其是一些车辆定位系统,大大提高了
随着信息技术特别是网络技术的迅猛发展、各种应用服务的普及,在不同企业、不同政府部门的业务系统间实现信息共享的需求越来越强烈。本文分析了在不同的业务系统间进行信息
面对全球化浪潮和个性化买方市场的冲击,越来越多的企业认识到针对市场瞬息万变的顾客需求快速进行产品配置以争取顾客将成为未来企业间竞争的焦点。产品配置问题的核心是产