提取文字
由于搜索引擎蜘蛛抓取的是頁面的HTML代碼,里面包含了大量的HTML標簽、js等無法用到排名上的內(nèi)容,所以搜索引擎索引首先要做的就是把其中的HTML標簽、js去掉,保留剩下的頁面文字內(nèi)容。
中文分詞
中文分詞是中文搜索引擎特有的步驟,英文單詞之間會有空格作分隔,而中文詞與詞之間沒有分隔符號,一個句子字與詞都是連在一起的。中文搜索引擎必須首先分辨那幾個字組成一個詞,哪些字本身就是一個詞。比如“健身方法”將被分詞為“健身”和“方法”兩個詞。
去停止詞
在頁面內(nèi)容中會存在很多對內(nèi)容沒有任何影響的詞,比如"的"、"之"、"卻"、"啊"之類。搜索引擎在索引時會把這些詞去掉,讓頁面內(nèi)容的主題更加突出。
去重(為什么偽原創(chuàng)弊大于利)
搜索引擎為了減少搜索結(jié)果中出現(xiàn)的重復內(nèi)容會選取頁面內(nèi)容中出現(xiàn)頻率最高的詞,通常會選出10個左右關(guān)于頁面的關(guān)鍵詞來計算頁面的“指紋”。
索引
經(jīng)過以上步驟之后,搜索引擎就可以提煉出可以代表一個頁面內(nèi)容的一些關(guān)鍵詞,同時記錄這些詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式、位置等信息。
鏈接關(guān)系計算
當頁面中存在鏈接時,搜索引擎會計算這些鏈接都只想哪些頁面,每個頁面都有哪些導入鏈接,鏈接使用了什么錨文字,這些復雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。這些鏈接關(guān)系也是百度計算權(quán)重的重要依據(jù)之一,至于百度權(quán)重和鏈接分析出彩科技會在以后的文章中專門介紹。
頁面質(zhì)量判斷
在這個階段,搜索引擎會對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等作出判斷,比如百度的綠蘿、石榴算法。
提醒的是中文搜索引擎和其他國外搜索引擎還是有一定區(qū)別的,不過大致方向上是相同的,只要牢牢掌握其中一種,學習另外的也會相對簡單很多。
一流微商的3大核心思維,95%人不知道(2016-09-29)
不必煩惱,做好這6點讓你的網(wǎng)站百度秒收錄(2016-09-29)
評估酒店營銷效果的12個重要KPI指標(2016-09-29)
2016年10月公關(guān)日歷(干貨收藏)(2016-09-29)
面包旅行徹底轉(zhuǎn)型?這是我的4點看法(2016-08-24)
關(guān)于微信運營的9個常見問題(2016-08-09)
“里約大冒險”開始了,奧運營銷到底怎么玩?(2016-08-09)
發(fā)表評論
提示:請先登錄再進行評論,立即登錄