一种对英文字符串进行分词的方法

来源 :计算机应用研究 | 被引量 : 5次 | 上传用户:daitiejian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配。对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法。实验证明该算法具有高效性。
其他文献
在研究Harris角点检测算法时发现由于该算法采用高斯低通滤波进行平滑,因而对一些图像进行角点提取时,存在角点信息丢失和位置偏移等现象,而B样条函数可以收敛于高斯函数,并具有良好的逼近能力和紧支性等一些优秀的性质,从而基于B样条函数提出了一种改进的Harris角点提取方法。实验表明,该方法对提取角点非常有效。
在运动矢量的基础上提出运动速度概念,并提出一种基于运动速度的压缩域视频流水印算法,给出相关检测性能分析。实验表明,该算法具有很强的鲁棒性,能抵抗一些格式上的变换。
提出了基于可信计算平台的信任管理方案,除了对用户的信任状检查以外,还需要对可信计算平台也进行身份和权限的检验。将可信计算平台的信任状按粒度分为三类并将安全策略进行相应的分类,最后在网格环境下分析提出的方案。
TRANS是基于CTL的优化变换描述语言,对TRANS语言作了宏扩展,给出了循环嵌套、循环归纳变量、循环依赖及方向向量的时序逻辑描述。从依赖分析的角度对重排序循环优化变换加以考查,并以循环逆转和循环交换为例阐述了其形式化描述方法。
提出一种基于时序逻辑公式的关键节点控制图生成方法,生成的测试用例针对性强,容易扩展;并以该方法改进了一种编译优化自动化测试工具,在很大程度上消除了其测试冗余,提高了测试效率。
当前网络地理信息系统(WebGIS)的应用多以瘦客户端模式为主,而瘦客户端WebGIS又有多种实现模式,但有关不同实现模式下系统性能的测试与研究尚不多见。首先总结了瘦客户端WebGIS的三种实现模式;其次利用负载测试软件LoadRunner对不同实现模式下系统的性能进行仿真测试;最后对测试结果进行对比分析,对不同实现模式下系统的性能及应用范围进行了讨论。该研究结果为用户采用哪种实现方式进行WebG
根据项目特点,建立了适合ASP平台的基于协调理论和反馈机制的扩展活动网络模型,采用XML模式的XPDL规范实现过程定义;然后通过DOM解析XML数据文档和J2EE的技术支持实现了系统的轻量级工作流引擎。详细介绍了系统实现中解决的两个关键问题:事务型操作的处理和并发控制,并提出了基于优先级的锁绑定机制。
根据人类视觉系统(HVS),利用数字图像中的HSI模型,提出了一种基于字符亮度的自适应文本信息隐藏算法。该算法引入二次余数理论随机选择嵌入位置,并且采用了一种扩展的编码机制动态地隐藏秘密信息。实验结果表明这种算法不仅扩大了隐藏容量而且改善了文本的隐蔽性,同时在鲁棒性与不可感知性之间取得良好的折中,提高了文本的抗攻击能力。
提出了一种适用于基于IEEE 802.11的无线网络的动态帧分片与聚集方案。该方案依据实时的信噪比信息来判断链路误码率,利用分片和聚集操作动态调整发送帧的长度,从而减少误码重传的发生。模拟实验证明,该方案能够有效提高WLAN以及无线Mesh网络为代表的基于802.11的无线单跳以及多跳网络的传输性能。
目前,在嵌入式设备上(如手机)的3D游戏开发总是基于一定的图形API来进行的。OpenGL ES是为嵌入式系统而开发的3D图形绘制编程接口。在基于嵌入式的3D游戏开发过程中,由于硬件资源的相对不足,要得到绘制效果较理想的图形,就需要优化3D图形绘制过程。采用最新的图形管线理论,将OpenGL ES的3D图形管线绘制过程划分为七个管线绘制部分(这七个部分归属于三个绘制阶段),分析每个绘制部分的主要工