搜行者最近对百度优化的一些思考,把一些想法写成文字,放在南京seo网站上,今天是第一篇:分词技术(1)
分词是目前全文搜索引擎的基础,这个没什么疑议,只是现在的搜索引擎加入了很多其他的因素,内容为王一次次遭到质疑。不过本文不谈其他因素,只谈内容里面的分词处理
百度更懂中文是什么意思?其实就是他的分词更符合国人的习惯。
先来看看分词的时机和条件。
简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中条件文字符的时候,百度的分词程序就会将其分解。
怎么证明呢?我们向百度提交“南京SEO优化研究”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成4个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。
下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。
百度使用什么方法,我的理解是先经过专业词库里面筛选,然后进入普通词库,运用语言模型方法进行分词
怎么理解呢,还是看:南京SEO优化研究,我们在百度搜索的结果中可以看到,南京SEO被拆成了至少几个词:
1:南京SEO优化研究(这个是完全匹配);
2:南京、SEO、优化、研究;
3、南京、SEO优化研究;
4、南京SEO、优化、研究
5、优化研究、南京、SEO
从以上内容看到,所有的分词都是有语义的模型,而这些分开的次在这个词组中的权重如何计算呢?后面的文章在来探讨!
原创:搜行者
首发:南京SEO优化研究
转载请注明出处!