正想着分词的东东,突然兴起,想看看搜索引擎如何看待标点符号的,一直以为搜索引擎分词的时候是不看标点符号的,比如“?”“。”,“”“.”“!”等等,几乎在任何搜索引擎中搜索是没有结果的。但是今天发现一个有趣的东东,搜索引擎还是抓取某些标点符号的,也就是说有些标点符号搜索引擎是认为有意义的!

比如:

搜索:破折号“——”

http://www.baidu.com/baidu?word=%E2%80%94%E2%80%94&tn=ichuner_4_pg&ie=utf-8找到相关网页约100,000,000篇,用时0.001秒 ,百度认为是有意义的;而GOOGLE却出现   找不到和您的查询 "——" 相符的网页;雅虎:对不起, 没有找到与 —— 相关的网页

 

搜索:连接号“—”

百度:百度一下,找到相关网页约100,000,000篇,用时0.001秒;GOOGLE和YAHOO都没有

 

搜索:“ _”(下划)

百度提示:抱歉,您输入的内容“_”不在查询范围内。再来看google:http://www.google.cn/search?client=aff-cs-worldbrowser&forid=1&ie=utf-8&oe=UTF-8&hl=zh-CN&q=%5F约有193,000,000项符合_的查询结果,以下是第1-10项 (搜索用时 0.06 秒);雅虎:对不起, 没有找到与 _ 相关的网页

 

搜索:省略号“……”

百度:http://www.baidu.com/baidu?word=%E2%80%A6%E2%80%A6&tn=ichuner_4_pg&ie=utf-8百度一下,找到相关网页约76,700,000篇,用时0.001秒 ;Google:找不到和您的查询 "……" 相符的网页。雅虎:对不起, 没有找到与 …… 相关的网页

 

搜索:英语省略号“…”

百度:http://www.baidu.com/s?tn=ichuner_4_pg&ct=0&ie=gb2312&bs=%5E&sr=&z=&cl=3&f=8&wd=%A1%AD百度一下,找到相关网页约77,300,000篇,用时0.001秒;GOOGLE:找不到和您的查询 "" 相符的网页;雅虎:对不起, 没有找到与 相关的网页

 

搜索:书名号“《》”

百度:http://www.baidu.com/baidu?word=%E3%80%8A%E3%80%8B&tn=ichuner_4_pg&ie=utf-8百度一下,找到相关网页约3,420,000篇,用时0.011秒;google:找不到和您的查询 "《》" 相符的网页;雅虎:找到相关网页约892,938条

 

搜索:星号“*”

百度:抱歉,您输入的内容“*”不在查询范围内;GOOGLE:共有 2 项符合*的查询结果,以下是第 1 - 2 项 (搜索用时 0.02 秒);雅虎:对不起, 没有找到与 <> 相关的网页

 

是不是很有意思呢?常用的标点符号都被搜索引擎给删除了,就好像一篇文章里面的“的”“了”等等语气助词,在分词的时候是无语意的。但是我们知道,标点符号在中文里面占有很重要的地位,比如破折号、书名号等这些,GOOGLE和雅虎忽略了,百度注意到了,从这一点上说明百度的确更懂中文。

值得注意的是下划线“_”这个标点,在GOOGLE看来是有意义的,所以以后自定义文件名的时候可要注意了哦~~

也许,还有一些没有发现的标点……

也许,标点符号能给我们更多的启示……