基于Internet的中文文本过滤系统的研究与实践

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:airkey1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文简要介绍了文本过滤的背景,系统地探讨了文本过滤与文本检索及机器学习等领域的紧密联系,以一种典型的中文文本过滤逻辑模型为例,深入研究了实现中文文本过滤系统所涉及的各个方面的理论和技术,其中包括概念扩展,文本结构分析和特征抽取,潜在语义标注及自适应学习等技术。文章借鉴了其它文本过滤系统的优点,充分考虑了系统的召回率,查准率,运行效率及可实现性,给出了一种改进的中文文本过滤系统的体系结构,增加了类匹配模块和用户兴趣反馈模块。并详细阐述了一种混合式的中文文本过滤方法,给出了实现该系统主要模块的数学模型及其相关的算法。 利用Java技术对整个中文文本过滤系统的功能模块进行了尝试性的实践。在实践中,实现了自动构建反向词频库,改进了关键词权重计算方法,增加了主题句权重计算方法,调节了数学模型中的相关系数,还增加了其它传统的过滤引擎所没有的同义扩展及查询修正等功能,取得了一定的过滤效果。 最后,针对本系统在过滤的精确率上不太理想的特点,对本课题下一步要研究的内容进行了系统的总结,并提出了自己的一些看法。
其他文献
无源雷达具有双/多基地雷达的特点,其利用第三方辐射源信号进行运动目标检测,具有隐蔽性高、抗干扰能力强、低空探测和反隐身等优势,在现在以及未来电子战中具有至关重要的作用,
期刊
H.264视频编码标准中了采用分数象素运动估计和多模式运动估计算法,与传统的MPEG-4、H.263+相比较,其编码效率和性能都显著提高。然而,由于在运动估计中引入了亚象素插值和估计
脂联素是近来发现的一种重要的脂肪细胞因子,在调节脂质和葡萄糖代谢方面扮演着重要角色。它可刺激脂肪酸氧化、抑制肝糖原异生和增强胰岛素敏感性。同时在慢性炎症病理调节
期刊
P波段机载重轨干涉合成孔径雷达(Synthetic Aperture Radar,SAR)由于其灵活机动、可穿透性、波束覆盖范围大等特点,在灵活获取高精度数字地形模型方面具有非常重要的应用价值。
SAR图像具有海量数据和人工判读复杂的特点,使得单纯依靠人工判读的解译方式无法满足实际的应用需求,因此对于SAR图像目标识别算法的研究具有重要意义。  传统的SAR图像目标
期刊
本文首先从描述脑电信号的产生和基本特征出发,综述了当前的脑电信号分析技术,包括时域分析、频域分析、时频分析和非线性动力学分析等,重点介绍了脑电时间序列的非线性数值分析
期刊