什么是分词?
网站搜索中分词是常用到的功能。比如我们搜索关键词:嘉兴网站建设。常规的匹配规则是从数据库里模糊查询,内容包含“嘉兴网站建设”。这个称为模糊匹配。但是当内容是“嘉兴专业网站建设”就不符合我们的查询要求了,但是按用户体验来说“嘉兴专业网站建设”这个词也符合用户的搜索意图。那么我们就需要对“嘉兴网站建设”进行分词处理了。
这里我们推荐用的是“pscws23”,pscws23 是由 hightman 开发的纯 php 代码实现的简易中文分词系统第二和第三版的简称。pscws 是英文 php simple chinese words segmentation 的头字母缩写,它是 scws 项目的前身。pscws 的第二版和第三版调用接口完全一致,词典也通用,仅仅是内部分词算法不一样。其中第二版采用的是正向最大匹配结合n(默认为2)层消岐方案;第三版则采用双向匹配比较相邻词汇的频率取优。使用速度上第二版略快一些,但差别不大,准确率也相差不多各有特色。
比如上术搜索“嘉兴网站建设”的分词结果为:
这样我们可以搜索内容包含这些关键词任意一个,即可匹配到搜索结果。
分词可以提取英文单词,过滤人名,标点符号。
分词结果
更多功能请参考源代码,附件为源代码可以下载测试。
fenci.rar
4a19941e216a1feaf2c0365a56b47725.rar(3.14 mb)
中小煤炭企业电子交易平台构建初探做网页设计会遇到哪些常见的问题?如何通过用户习惯进行设计从而提高网站的用户粘性常用的网站cms内容管理系统推荐专业网站设计公司,如何设计一个优秀的企业网站?企业网站流量变销量的关键点所在百度发布国内首个搜索营销标准:《搜索营销标准与规范》一定找技术专业的网站建设公司来构建网站会让您的网站具备很强的营销推广性