首頁 > 正文標題
那么,百度是如何收錄我們旅游線路的呢?
索引,我們更習(xí)慣將之稱為收錄,是搜索引擎(百度)工作的第二步,主要目的是對在爬行過程中發(fā)現(xiàn)的有價值的新內(nèi)容網(wǎng)頁進行分析、處理、初步排序,然后存進數(shù)據(jù)庫。
在索引的過程中有幾個核心的點我重點解釋一下。
1.被爬行:網(wǎng)頁能否被收錄,必須能被百度蜘蛛爬行到,沒有被爬行到的網(wǎng)頁做得再優(yōu)秀也無濟于事,這點在上面已經(jīng)說過。所以,當一個網(wǎng)站里的頁面收錄情況很差的時候,如果要查明收錄情況差的原因,就需要從網(wǎng)頁是否被百度蜘蛛爬行過做起!
2.有價值的新內(nèi)容網(wǎng)頁:首先,新內(nèi)容網(wǎng)頁,可以是新發(fā)布的網(wǎng)頁,也可以是經(jīng)過大幅度修改后的老網(wǎng)頁(標題、內(nèi)容修改前后文字大不一樣),但是網(wǎng)頁內(nèi)容只是新還不足夠,還必須得是有價值的!比如,一篇由幾百個漢字隨便拼湊而成不具備任何可讀性的文章,內(nèi)容是很新、并且還獨一無二,但是因為沒有任何的價值,百度一樣不會收錄該頁面!
百度又不是人,它又怎么知道我的網(wǎng)頁內(nèi)容是不是新的、是不是獨一無二的、是不是有用的呢?這個就要介紹到百度如何對爬行到的網(wǎng)頁進行處理的了。
第一步:文件存儲
百度蜘蛛將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,每個URL都有一個獨特的編號,這些頁面數(shù)據(jù)與我們通過瀏覽器看到的是完全一樣的,所以不要企圖通過一些技術(shù)手段來實現(xiàn)給百度和游客展示不同的內(nèi)容,一旦被發(fā)現(xiàn),對網(wǎng)站就會是致命的打擊。
第二步:提取文字
百度是以文字內(nèi)容為基礎(chǔ)進行分析的,會從蜘蛛抓取到的HTML文件中去除代碼標簽、程序等,提取出可以用于排名處理的網(wǎng)頁頁面文字內(nèi)容。
但是在這個過程中,百度并不能識別圖片、視頻、flash里面的內(nèi)容,所以在百度看來,一個滿頁面都是圖片(視頻、flash)而沒有文字的網(wǎng)頁幾乎就是一個空白頁面。當然了,會有其他的辦法來彌補這個缺點,但我們要想獲得較好的收錄以及排名,最好還是主動避免這種情況的發(fā)生,最好是給圖片配以適當?shù)南嚓P(guān)介紹文字,以圖文并茂的形式來發(fā)布新的內(nèi)容!
第三部:中文分詞
分詞是中文搜索引擎特有的步驟。百度存儲和處理頁面,以及用戶搜索都是以詞為基礎(chǔ),即我們所說的關(guān)鍵詞。而所謂的分詞,即百度程序會將上面提取出來的文章,分割成一個一個的詞組,至于具體的分割原理,則非常復(fù)雜。搜索引擎必須分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“廈門旅游景點”,可能被分詞為“廈門”和“旅游景點”兩個詞,也可以能會被分詞為“廈門旅游”和“景點”兩個詞,還有可能會被作為一個獨立的詞“廈門旅游景點”來處理!所以我們要盡可能的讓我們的目標關(guān)鍵詞多次出現(xiàn),或者是適當?shù)慕o他們采取加粗的形式,以防他們被分割成不同的詞。
第四步:去停止詞
無論英文中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。這些詞被稱為停止詞,因為它們對頁面主要意思沒什么影響。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計算量。
第五步:消除噪聲
絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如版權(quán)聲明文字、導(dǎo)航條、廣告等。這些區(qū)塊都屬于噪聲,對頁面主題只能起到分散作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標簽對頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內(nèi)容。
第六步:去重
同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站以及同一個網(wǎng)站的不同網(wǎng)頁上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就稱為去重。去重的基本方法是對頁面特征關(guān)鍵詞計算指紋,簡單地增加“的,地,得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。被百度判斷為重復(fù)內(nèi)容的頁面,往往是導(dǎo)致百度不收錄的重要原因之一!
第七步:正向索引
經(jīng)過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞,把頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標題標簽、黑體、H標簽、錨文字等)、位置(如頁面第一段文字等)。這樣,每一個頁面都可以記錄為一串關(guān)鍵詞集合,其中每個關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。
搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進索引庫。簡化的索引詞表形式如下表所示。
第八步:倒排索引
正向索引還不能直接用于排名,無法滿足實時返回排名結(jié)果的要求。所以搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。如下表所示:
在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當用戶搜索某個關(guān)鍵詞時,排序程序在倒排索引中定位到這個關(guān)鍵詞,就可以馬上找出所有包含這個關(guān)鍵詞的文件。
經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程是與用戶直接互動的。
至此,百度就已經(jīng)完成了對我們的線路頁面的收錄工作,但是這并不代表著我們的線路就能在百度獲得較好的排名,能否獲得好的排名,則要看排序階段!排序階段涉及到的內(nèi)容比較多,估計要寫一本書才能描述清楚,以后再慢慢安排時間一一介紹!
淺談百度如何收錄我們的旅游線路(爬行篇):http://www.nbbeihaian.com/zaobao/21952
(文:欣欣旅游網(wǎng):一刀)
0
第一次去西藏,不懂的路線規(guī)劃,可以問我
沒有電話,咨詢不了,請速聯(lián)系,咨詢密云CS...
謝謝你們的認可和支持。歡迎你們以后有時間...
更多精彩內(nèi)容,請訪問:https://www.beijly...
照片沒有保存下來 請大家打開自己的小手自己...
你可能不是行業(yè)專家,但你一定有獨特的觀點和視角,趕緊和業(yè)內(nèi)人士分享吧!
我要投稿
投稿須知
作為行業(yè)領(lǐng)先的旅游商業(yè)和科技媒體,《文旅界》致力于以獨立的新聞態(tài)度,挖掘和報道旅游行業(yè)的重要事件,以及影響旅游業(yè)發(fā)展的新趨勢、新模式和新科技,為旅游業(yè)者提供專業(yè)、及時、深度的旅游信息服務(wù)。
無論您是:投放在線廣告、企業(yè)招聘、尋求報道、還是投稿爆料、加入評論員,歡迎通過以下方式聯(lián)系我們:
0592-6532122
wangjing@cncn.net
欣欣旅行社同業(yè)社群招募中,勾搭小編微信號:cncn4021入社群
掃描二維碼分享到微信
分享到
Copyright © 2024 智旅數(shù)文 cncn.net 閩ICP備11015723號-3
0
0
0
0
0
0
0
0
0
0