搜行者最近对百度优化的一些思考,把一些想法写成文字,放在南京seo网站上,今天是第一篇:分词技术(1)
分词是目前全文搜索引擎的基础,这个没什么疑议,只是现在的搜索引擎加入了很多其他的因素,内容为王一次次遭到质疑。不过本文不谈其他因素,只谈内容里面的分词处理
百度更懂中文是什么意思?其实就是他的分词更符合国人的习惯。
先来看看分词的时机和条件。
简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中条件文字符的时候,百度的分词程序就会将其分解。
怎么证明呢?我们向百度提交“南京S...
[更多...]