|
网站SEO优(yōu)化之Google分词(cí)法 |
|
Google分(fèn)词算法值(zhí)得我们好好(hǎo)研(yán)究一下。Google的搜(sōu)索(suǒ)结果页(SERP)与搜索关键(jiàn)字的相关性,明(míng)显大于百(bǎi)度,这是因为Google把搜索关键字都拆分成(chéng)最基(jī)本的词组和单字后,在根据相关性去匹配数据库的中内容,而且Google拆分后的最基(jī)本(běn)词(cí)组,完全是根据(jù)词典里的词组匹配(pèi)的,也(yě)是说它(tā)符合国家语言文字工(gōng)作委员(yuán)会的(de)规范和标准(zhǔn)的,这只(zhī)限(xiàn)于普通词组(公众人名、著(zhe)名品牌名)。
实例1:测试Google是否有专业名词库
在Google搜(sōu)索(suǒ)“搜(sōu)索(suǒ)引擎关键字”,Google会把这个关键(jiàn)字短语拆(chāi)分(fèn)为“搜(sōu)索—引擎—关键(jiàn)—字”,这是因为“搜索引擎(qíng)”和“关键字”都(dōu)是网(wǎng)络专(zhuān)业词组(zǔ),可能Google没有(yǒu)专业(yè)词组库(kù),所以就被拆分成(chéng)了“搜索—引擎—关键—字”。
实例(lì)2:测试Google拆分长关键字
在Google搜(sōu)索“他舅(jiù)WAP流量统计分(fèn)析(xī)”,Google把这个关键字短语拆分为“他—舅—wap—流量—统计—分(fèn)析”六部分(fèn),“WAP”是一个英文词组,包括Google和其(qí)他搜(sōu)索引擎一(yī)般是不拆分(fèn)英文(wén)词组的(就算(suàn)它不是英文(wén)单(dān)词),“流量”、“统(tǒng)计”、“分(fèn)析(xī)”都(dōu)是符合国家语(yǔ)言规(guī)范的标(biāo)准词组,“他(tā)舅”只是中国老百姓一个口头称谓用语,不符合国家(jiā)语言规范,在词典(diǎn)中根本(běn)就查(chá)不到这,所(suǒ)以Google就把“他舅”拆(chāi)分成了两个单字。
实例3:测试品牌名是否被(bèi)Google收(shōu)录为词组
在(zài)Google搜(sōu)索“海尔冰箱”、“惠普电脑(nǎo)”、“华(huá)为通讯”、“美的(de)电器(qì)”,“五粮液酒”,“夏利汽车”、“北京(jīng)同仁堂”这七(qī)个都是著名的(de)品(pǐn)牌,结果是(shì)“海尔”、“惠普”、“华(huá)为”、“五粮液”、“同(tóng)仁堂”都(dōu)是单(dān)独的词组,没有被拆分(fèn)为单字,“夏利”、“美的”这两个品牌却被拆分成了单字。不是所有(yǒu)品牌(pái)都能(néng)被Google作为一个(gè)词组收录进品牌词库,Google有自己的(de)收录(lù)标准的(de)。
实(shí)例4:测试Google是否会拆分成语
下面我们搜索一下韩乔(qiáo)生的经典名句“迅雷不及掩耳(ěr)之势”和“山清水秀丽”,结果“迅雷(léi)不及掩耳之(zhī)势”这(zhè)个短句(jù)被拆(chāi)分成了“迅雷—不及(jí)—掩耳盗(dào)铃—之—势”,“迅雷”是一(yī)个符合(hé)汉语言规范的标准词组(zǔ),不是(shì)指下载(zǎi)工具(jù)那个“迅雷”,“不及”也是一个词组,“掩耳(ěr)盗铃”也是(shì)符合国家语言规范的成(chéng)语,“之势”不是标准词组,所以就被拆分为两(liǎng)个(gè)单字。“山清(qīng)水秀丽”被拆(chāi)分为了“山清水秀—丽”,“山清水秀(xiù)”是一(yī)个成语没有拆分。Google把(bǎ)成语作为几个基本词(cí)组,不会进一步拆分。
实例5:测试普通之间(jiān)是否(fǒu)有权重高低之分
搜索(suǒ)“山河(hé)水灾”这个(gè)关键字短语,结果Google拆分为“山(shān)河”和“水灾”两个词组(zǔ);然后搜素“山河(hé)水(shuǐ)灾情”这个关键字短(duǎn)语,结果Google拆分为(wéi)“山河”、“水”、“灾情”三部分,“水”字没(méi)有和“灾”组(zǔ)成词组(zǔ),反而“灾”和“情”组成了词(cí)组,这说“灾情”这个词的权重高于“水灾”的权重。这(zhè)说(shuō)明词组之间也是有权重(chóng)之分的(de)。
根据实例测(cè)试推断:Google会把搜索的关键字(zì)(短语(yǔ))拆分为最基(jī)本的词(cí)组,这(zhè)些普通(tōng)词组都是符合汉语言规(guī)范(fàn)的(de)标准词组(zǔ),不(bú)像百度那样收录“人造名词(cí)”。Google的词(cí)组大致可分为普(pǔ)通名(míng)词、地(dì)名、人名等几类,关(guān)键字(短语)都是从左向右,按(àn)权重高低拆分(fèn)。这些词组(zǔ)权重从低到高依次(cì)如下:人名<普通词组(zǔ)<地(dì)名(míng)<成(chéng)语<领导人名字。进一步测试品牌名(míng)和人(rén)名的权重是(shì)一样,都是最低的,这只是一(yī)个大致顺序,因为(wéi)同(tóng)一类词组还会根据日常(cháng)使用的频率(lǜ)进一(yī)步的分级,每(měi)一级的分配不同的(de)权重,所以同一(yī)类词组之间也有权重高低之分。
|
|