首頁(yè) > 正文標(biāo)題
那么,百度是如何收錄我們旅游線路的呢?
索引,我們更習(xí)慣將之稱為收錄,是搜索引擎(百度)工作的第二步,主要目的是對(duì)在爬行過(guò)程中發(fā)現(xiàn)的有價(jià)值的新內(nèi)容網(wǎng)頁(yè)進(jìn)行分析、處理、初步排序,然后存進(jìn)數(shù)據(jù)庫(kù)。
在索引的過(guò)程中有幾個(gè)核心的點(diǎn)我重點(diǎn)解釋一下。
1.被爬行:網(wǎng)頁(yè)能否被收錄,必須能被百度蜘蛛爬行到,沒(méi)有被爬行到的網(wǎng)頁(yè)做得再優(yōu)秀也無(wú)濟(jì)于事,這點(diǎn)在上面已經(jīng)說(shuō)過(guò)。所以,當(dāng)一個(gè)網(wǎng)站里的頁(yè)面收錄情況很差的時(shí)候,如果要查明收錄情況差的原因,就需要從網(wǎng)頁(yè)是否被百度蜘蛛爬行過(guò)做起!
2.有價(jià)值的新內(nèi)容網(wǎng)頁(yè):首先,新內(nèi)容網(wǎng)頁(yè),可以是新發(fā)布的網(wǎng)頁(yè),也可以是經(jīng)過(guò)大幅度修改后的老網(wǎng)頁(yè)(標(biāo)題、內(nèi)容修改前后文字大不一樣),但是網(wǎng)頁(yè)內(nèi)容只是新還不足夠,還必須得是有價(jià)值的!比如,一篇由幾百個(gè)漢字隨便拼湊而成不具備任何可讀性的文章,內(nèi)容是很新、并且還獨(dú)一無(wú)二,但是因?yàn)闆](méi)有任何的價(jià)值,百度一樣不會(huì)收錄該頁(yè)面!
百度又不是人,它又怎么知道我的網(wǎng)頁(yè)內(nèi)容是不是新的、是不是獨(dú)一無(wú)二的、是不是有用的呢?這個(gè)就要介紹到百度如何對(duì)爬行到的網(wǎng)頁(yè)進(jìn)行處理的了。
第一步:文件存儲(chǔ)
百度蜘蛛將爬行的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù),每個(gè)URL都有一個(gè)獨(dú)特的編號(hào),這些頁(yè)面數(shù)據(jù)與我們通過(guò)瀏覽器看到的是完全一樣的,所以不要企圖通過(guò)一些技術(shù)手段來(lái)實(shí)現(xiàn)給百度和游客展示不同的內(nèi)容,一旦被發(fā)現(xiàn),對(duì)網(wǎng)站就會(huì)是致命的打擊。
第二步:提取文字
百度是以文字內(nèi)容為基礎(chǔ)進(jìn)行分析的,會(huì)從蜘蛛抓取到的HTML文件中去除代碼標(biāo)簽、程序等,提取出可以用于排名處理的網(wǎng)頁(yè)頁(yè)面文字內(nèi)容。
但是在這個(gè)過(guò)程中,百度并不能識(shí)別圖片、視頻、flash里面的內(nèi)容,所以在百度看來(lái),一個(gè)滿頁(yè)面都是圖片(視頻、flash)而沒(méi)有文字的網(wǎng)頁(yè)幾乎就是一個(gè)空白頁(yè)面。當(dāng)然了,會(huì)有其他的辦法來(lái)彌補(bǔ)這個(gè)缺點(diǎn),但我們要想獲得較好的收錄以及排名,最好還是主動(dòng)避免這種情況的發(fā)生,最好是給圖片配以適當(dāng)?shù)南嚓P(guān)介紹文字,以圖文并茂的形式來(lái)發(fā)布新的內(nèi)容!
第三部:中文分詞
分詞是中文搜索引擎特有的步驟。百度存儲(chǔ)和處理頁(yè)面,以及用戶搜索都是以詞為基礎(chǔ),即我們所說(shuō)的關(guān)鍵詞。而所謂的分詞,即百度程序會(huì)將上面提取出來(lái)的文章,分割成一個(gè)一個(gè)的詞組,至于具體的分割原理,則非常復(fù)雜。搜索引擎必須分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一個(gè)詞。比如“廈門(mén)旅游景點(diǎn)”,可能被分詞為“廈門(mén)”和“旅游景點(diǎn)”兩個(gè)詞,也可以能會(huì)被分詞為“廈門(mén)旅游”和“景點(diǎn)”兩個(gè)詞,還有可能會(huì)被作為一個(gè)獨(dú)立的詞“廈門(mén)旅游景點(diǎn)”來(lái)處理!所以我們要盡可能的讓我們的目標(biāo)關(guān)鍵詞多次出現(xiàn),或者是適當(dāng)?shù)慕o他們采取加粗的形式,以防他們被分割成不同的詞。
第四步:去停止詞
無(wú)論英文中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高,卻對(duì)內(nèi)容沒(méi)有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。這些詞被稱為停止詞,因?yàn)樗鼈儗?duì)頁(yè)面主要意思沒(méi)什么影響。搜索引擎在索引頁(yè)面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無(wú)謂的計(jì)算量。
第五步:消除噪聲
絕大部分頁(yè)面上還有一部分內(nèi)容對(duì)頁(yè)面主題也沒(méi)有什么貢獻(xiàn),比如版權(quán)聲明文字、導(dǎo)航條、廣告等。這些區(qū)塊都屬于噪聲,對(duì)頁(yè)面主題只能起到分散作用。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁(yè)面分塊,區(qū)分出頁(yè)頭、導(dǎo)航、正文、頁(yè)腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁(yè)面進(jìn)行消噪后,剩下的才是頁(yè)面主體內(nèi)容。
第六步:去重
同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站以及同一個(gè)網(wǎng)站的不同網(wǎng)頁(yè)上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過(guò)程就稱為去重。去重的基本方法是對(duì)頁(yè)面特征關(guān)鍵詞計(jì)算指紋,簡(jiǎn)單地增加“的,地,得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過(guò)搜索引擎的去重算法,因?yàn)檫@樣的操作無(wú)法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁(yè)面級(jí)別,而是進(jìn)行到段落級(jí)別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。被百度判斷為重復(fù)內(nèi)容的頁(yè)面,往往是導(dǎo)致百度不收錄的重要原因之一!
第七步:正向索引
經(jīng)過(guò)文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁(yè)面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來(lái)搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞,把頁(yè)面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁(yè)面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁(yè)面第一段文字等)。這樣,每一個(gè)頁(yè)面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。
搜索引擎索引程序?qū)㈨?yè)面及關(guān)鍵詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫(kù)。簡(jiǎn)化的索引詞表形式如下表所示。
第八步:倒排索引
正向索引還不能直接用于排名,無(wú)法滿足實(shí)時(shí)返回排名結(jié)果的要求。所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。如下表所示:
在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。
經(jīng)過(guò)搜索引擎蜘蛛抓取頁(yè)面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶,排名過(guò)程是與用戶直接互動(dòng)的。
至此,百度就已經(jīng)完成了對(duì)我們的線路頁(yè)面的收錄工作,但是這并不代表著我們的線路就能在百度獲得較好的排名,能否獲得好的排名,則要看排序階段!排序階段涉及到的內(nèi)容比較多,估計(jì)要寫(xiě)一本書(shū)才能描述清楚,以后再慢慢安排時(shí)間一一介紹!
淺談百度如何收錄我們的旅游線路(爬行篇):http://www.nbbeihaian.com/zaobao/21952
(文:欣欣旅游網(wǎng):一刀)
0
第一次去西藏,不懂的路線規(guī)劃,可以問(wèn)我
沒(méi)有電話,咨詢不了,請(qǐng)速聯(lián)系,咨詢密云CS...
謝謝你們的認(rèn)可和支持。歡迎你們以后有時(shí)間...
更多精彩內(nèi)容,請(qǐng)?jiān)L問(wèn):https://www.beijly...
照片沒(méi)有保存下來(lái) 請(qǐng)大家打開(kāi)自己的小手自己...
你可能不是行業(yè)專家,但你一定有獨(dú)特的觀點(diǎn)和視角,趕緊和業(yè)內(nèi)人士分享吧!
我要投稿
投稿須知
作為行業(yè)領(lǐng)先的旅游商業(yè)和科技媒體,《文旅界》致力于以獨(dú)立的新聞態(tài)度,挖掘和報(bào)道旅游行業(yè)的重要事件,以及影響旅游業(yè)發(fā)展的新趨勢(shì)、新模式和新科技,為旅游業(yè)者提供專業(yè)、及時(shí)、深度的旅游信息服務(wù)。
無(wú)論您是:投放在線廣告、企業(yè)招聘、尋求報(bào)道、還是投稿爆料、加入評(píng)論員,歡迎通過(guò)以下方式聯(lián)系我們:
0592-6532122
wangjing@cncn.net
欣欣旅行社同業(yè)社群招募中,勾搭小編微信號(hào):cncn4021入社群
掃描二維碼分享到微信
分享到
Copyright © 2024 智旅數(shù)文 cncn.net 閩ICP備11015723號(hào)-3
0
0
0
0
0
0
0
0
0
0