三月 31

搜行者最近对百度优化的一些思考,把一些想法写成文字,放在南京seo网站上,今天是第一篇:分词技术(1)

分词是目前全文搜索引擎的基础,这个没什么疑议,只是现在的搜索引擎加入了很多其他的因素,内容为王一次次遭到质疑。不过本文不谈其他因素,只谈内容里面的分词处理

百度更懂中文是什么意思?其实就是他的分词更符合国人的习惯。

先来看看分词的时机和条件。

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中条件文字符的时候,百度的分词程序就会将其分解。
 
怎么证明呢?我们向百度提交“南京SEO优化研究”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成4个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

百度使用什么方法,我的理解是先经过专业词库里面筛选,然后进入普通词库,运用语言模型方法进行分词

怎么理解呢,还是看:南京SEO优化研究,我们在百度搜索的结果中可以看到,南京SEO被拆成了至少几个词:

1:南京SEO优化研究(这个是完全匹配);

2:南京、SEO、优化、研究;

3、南京、SEO优化研究;

4、南京SEO、优化、研究

5、优化研究、南京、SEO

从以上内容看到,所有的分词都是有语义的模型,而这些分开的次在这个词组中的权重如何计算呢?后面的文章在来探讨!

原创:搜行者  

首发:南京SEO优化研究

转载请注明出处!

Tags:

添加评论


(将显示你的Gravatar图标)  

  Country flag

[b][/b] - [i][/i] - [u][/u]- [quote][/quote]



在线预览

Posted on 星期四, 21 八月 2008 02:27