中文全文检索系统中基于分词技术的研究

来源 :吉林大学学报:信息科学版 | 被引量 : 0次 | 上传用户:zj3132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率,在现有中文分词算法的基础上,提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射,对词库进行改造,使之更好地与相关词进行映射,以便于实现中文分词。实验证明,改进的中文分词算法能降低检索耗时,是已有的分词算法的1/2和1/5,有效提高中文全文检索的速率。
其他文献
低密度奇偶检验(QC-LDPC:Quasi-CyclicLow-Density Parity-Check)码的环长分布影响决定着LDPC码的解码效果和编码复杂度,但其分析较困难。为此,首次提出旋转距离分析法,用于分析基
在计算机图形学研究中,为控制纹理演化过程,生成具有一定风格的纹理图案,在Arnold正变换基础上,通过合理推导得出规范的反变换表达式,统一了正反变换;从新疆民族图案中找出一些表征民族风格的图案,对其图案矩阵进行Arnold正反变换,描述图案演化过程,展示变换后矩阵获得不同风格图案。利用Ar-nold规范的正反变换,可以不受变换中(mod N)的限制,依此扩展生成不同风格的纹理图案。该方法简单易行,
为满足复杂环境下目标敌我属性识别能力,提出了一种基于模糊神经网络(FNN:Fuzzy Neural Net-works)和证据理论的新敌我识别方法。该方法利用模糊神经网络和证据理论信息的处理能
为解决国内常见微震源定位技术存在的震源定位精度及其可靠性都较低的问题,提出采用匀速P波和走时拟合的震源定位方法,编制了基于Matlab的震源定位程序。对设想的不同油井压
为满足特殊行业对高分辨率视频监控的需求,设计一种基于FPGA(Field Programmable Gate Array)的视频图像采集及网络传输系统。采用IIC(Intel-Integrated Circuit)协议,利用FPGA实现对图像传感器寄存器的配置,图像传感器输出分辨率为1 024×768、帧率为8 Hz、16位数字YCbCr的视频信号至FPGA,FPGA对接收的视频信号按照4 Hz的