国产av国片精品有毛,人妻在线日韩免费视频

淺談百度如何收錄我們的旅游線路（收錄篇）

文旅界 2013.09.26 10:20 閱讀量：79612

那么，百度是如何收錄我們旅游線路的呢？索引，我們更習(xí)慣將之稱為收錄，是搜索引擎（百度）工作的第二步，主要目的是對在爬行過程中發(fā)現(xiàn)的有價(jià)值的新……

那么，百度是如何收錄我們旅游線路的呢？

索引，我們更習(xí)慣將之稱為收錄，是搜索引擎（百度）工作的第二步，主要目的是對在爬行過程中發(fā)現(xiàn)的有價(jià)值的新內(nèi)容網(wǎng)頁進(jìn)行分析、處理、初步排序，然后存進(jìn)數(shù)據(jù)庫。

在索引的過程中有幾個(gè)核心的點(diǎn)我重點(diǎn)解釋一下。

1.被爬行：網(wǎng)頁能否被收錄，必須能被百度蜘蛛爬行到，沒有被爬行到的網(wǎng)頁做得再優(yōu)秀也無濟(jì)于事，這點(diǎn)在上面已經(jīng)說過。所以，當(dāng)一個(gè)網(wǎng)站里的頁面收錄情況很差的時(shí)候，如果要查明收錄情況差的原因，就需要從網(wǎng)頁是否被百度蜘蛛爬行過做起！

2.有價(jià)值的新內(nèi)容網(wǎng)頁：首先，新內(nèi)容網(wǎng)頁，可以是新發(fā)布的網(wǎng)頁，也可以是經(jīng)過大幅度修改后的老網(wǎng)頁（標(biāo)題、內(nèi)容修改前后文字大不一樣），但是網(wǎng)頁內(nèi)容只是新還不足夠，還必須得是有價(jià)值的！比如，一篇由幾百個(gè)漢字隨便拼湊而成不具備任何可讀性的文章，內(nèi)容是很新、并且還獨(dú)一無二，但是因?yàn)闆]有任何的價(jià)值，百度一樣不會收錄該頁面！

百度又不是人，它又怎么知道我的網(wǎng)頁內(nèi)容是不是新的、是不是獨(dú)一無二的、是不是有用的呢？這個(gè)就要介紹到百度如何對爬行到的網(wǎng)頁進(jìn)行處理的了。

第一步：文件存儲

百度蜘蛛將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫，每個(gè)URL都有一個(gè)獨(dú)特的編號，這些頁面數(shù)據(jù)與我們通過瀏覽器看到的是完全一樣的，所以不要企圖通過一些技術(shù)手段來實(shí)現(xiàn)給百度和游客展示不同的內(nèi)容，一旦被發(fā)現(xiàn)，對網(wǎng)站就會是致命的打擊。

第二步：提取文字

百度是以文字內(nèi)容為基礎(chǔ)進(jìn)行分析的，會從蜘蛛抓取到的HTML文件中去除代碼標(biāo)簽、程序等，提取出可以用于排名處理的網(wǎng)頁頁面文字內(nèi)容。

但是在這個(gè)過程中，百度并不能識別圖片、視頻、flash里面的內(nèi)容，所以在百度看來，一個(gè)滿頁面都是圖片（視頻、flash）而沒有文字的網(wǎng)頁幾乎就是一個(gè)空白頁面。當(dāng)然了，會有其他的辦法來彌補(bǔ)這個(gè)缺點(diǎn)，但我們要想獲得較好的收錄以及排名，最好還是主動避免這種情況的發(fā)生，最好是給圖片配以適當(dāng)?shù)南嚓P(guān)介紹文字，以圖文并茂的形式來發(fā)布新的內(nèi)容！

第三部：中文分詞

分詞是中文搜索引擎特有的步驟。百度存儲和處理頁面，以及用戶搜索都是以詞為基礎(chǔ)，即我們所說的關(guān)鍵詞。而所謂的分詞，即百度程序會將上面提取出來的文章，分割成一個(gè)一個(gè)的詞組，至于具體的分割原理，則非常復(fù)雜。搜索引擎必須分辨哪幾個(gè)字組成一個(gè)詞，哪些字本身就是一個(gè)詞。比如“廈門旅游景點(diǎn)”，可能被分詞為“廈門”和“旅游景點(diǎn)”兩個(gè)詞，也可以能會被分詞為“廈門旅游”和“景點(diǎn)”兩個(gè)詞，還有可能會被作為一個(gè)獨(dú)立的詞“廈門旅游景點(diǎn)”來處理！所以我們要盡可能的讓我們的目標(biāo)關(guān)鍵詞多次出現(xiàn)，或者是適當(dāng)?shù)慕o他們采取加粗的形式，以防他們被分割成不同的詞。

第四步：去停止詞

無論英文中文，頁面內(nèi)容中都會有一些出現(xiàn)頻率很高，卻對內(nèi)容沒有任何影響的詞，如“的”，“地”，“得”之類的助詞，“啊”，“哈”，“呀”之類的感嘆詞，“從而”，“以”，“卻”之類的介詞。這些詞被稱為停止詞，因?yàn)樗鼈儗︘撁嬷饕馑紱]什么影響。搜索引擎在索引頁面之前會去掉這些停止詞，使索引數(shù)據(jù)主題更為突出，減少無謂的計(jì)算量。

第五步：消除噪聲

絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻(xiàn)，比如版權(quán)聲明文字、導(dǎo)航條、廣告等。這些區(qū)塊都屬于噪聲，對頁面主題只能起到分散作用。搜索引擎需要識別并消除這些噪聲，排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對頁面分塊，區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域，在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進(jìn)行消噪后，剩下的才是頁面主體內(nèi)容。

第六步：去重

同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站以及同一個(gè)網(wǎng)站的不同網(wǎng)頁上，搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。搜索引擎希望只返回相同文章中的一篇，所以在進(jìn)行索引前還需要識別和刪除重復(fù)內(nèi)容，這個(gè)過程就稱為去重。去重的基本方法是對頁面特征關(guān)鍵詞計(jì)算指紋，簡單地增加“的，地，得”、調(diào)換段落順序這種所謂偽原創(chuàng)，并不能逃過搜索引擎的去重算法，因?yàn)檫@樣的操作無法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁面級別，而是進(jìn)行到段落級別，混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。被百度判斷為重復(fù)內(nèi)容的頁面，往往是導(dǎo)致百度不收錄的重要原因之一！

第七步：正向索引

經(jīng)過文字提取、分詞、消噪、去重后，搜索引擎得到的就是獨(dú)特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞，按照分詞程序劃分好的詞，把頁面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合，同時(shí)記錄每一個(gè)關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式（如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等）、位置（如頁面第一段文字等）。這樣，每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合，其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進(jìn)索引庫。簡化的索引詞表形式如下表所示。

第八步：倒排索引

正向索引還不能直接用于排名，無法滿足實(shí)時(shí)返回排名結(jié)果的要求。所以搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引，把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。如下表所示：

在倒排索引中關(guān)鍵詞是主鍵，每個(gè)關(guān)鍵詞都對應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)，排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞，就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

經(jīng)過搜索引擎蜘蛛抓取頁面，索引程序計(jì)算得到倒排索引后，搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計(jì)算排名顯示給用戶，排名過程是與用戶直接互動的。

至此，百度就已經(jīng)完成了對我們的線路頁面的收錄工作，但是這并不代表著我們的線路就能在百度獲得較好的排名，能否獲得好的排名，則要看排序階段！排序階段涉及到的內(nèi)容比較多，估計(jì)要寫一本書才能描述清楚，以后再慢慢安排時(shí)間一一介紹！

淺談百度如何收錄我們的旅游線路（爬行篇）：http://www.nbbeihaian.com/zaobao/21952

（文：欣欣旅游網(wǎng)：一刀）

SEO

網(wǎng)友評論 (12條)

: 葉曉麗 2014-04-02 16:33

復(fù)雜

0

: 呼曉萌 2014-01-26 13:39

深刻啊

0

: 王春林 2014-01-16 09:48

文章寫的很好

0

: 劉焯生 2014-01-14 12:55

搜噶

0

: 林意梵 2013-12-29 22:41

復(fù)制才會不被是不是個(gè)人都能玩轉(zhuǎn)的條件：http://lxs.cncn.com/82732

0

: 羅雷 2013-12-25 14:13

好文章，深入淺出！

0

: 張秀微 2013-12-19 11:08

好專業(yè)啊

0

: 王亞紅 2013-12-13 17:32

學(xué)習(xí)了

0

: 徐自升 2013-12-13 13:36

復(fù)雜

0

: 黃祥 2013-12-04 12:35

好復(fù)雜

0

大家都在"看"

大家都在"說"

: 羅金花
第一次去西藏，不懂的路線規(guī)劃，可以問我

: 王燕燕
沒有電話，咨詢不了，請速聯(lián)系，咨詢密云CS...

: 夏魴
謝謝你們的認(rèn)可和支持。歡迎你們以后有時(shí)間...

: 田慶博
更多精彩內(nèi)容，請?jiān)L問：https://www.beijly...

: 潘衛(wèi)國
照片沒有保存下來請大家打開自己的小手自己...

大家都在"搜"

SEO 百度營銷錦囊外鏈網(wǎng)絡(luò)營銷流量搜索引擎文章垃圾外鏈 robots協(xié)議頁面收錄作弊外鏈

快速投稿

你可能不是行業(yè)專家，但你一定有獨(dú)特的觀點(diǎn)和視角，趕緊和業(yè)內(nèi)人士分享吧！

我要投稿

投稿須知

關(guān)于我們

作為行業(yè)領(lǐng)先的旅游商業(yè)和科技媒體，《文旅界》致力于以獨(dú)立的新聞態(tài)度，挖掘和報(bào)道旅游行業(yè)的重要事件，以及影響旅游業(yè)發(fā)展的新趨勢、新模式和新科技，為旅游業(yè)者提供專業(yè)、及時(shí)、深度的旅游信息服務(wù)。

無論您是：
投放在線廣告、企業(yè)招聘、尋求報(bào)道、還是投稿爆料、加入評論員，歡迎通過以下方式聯(lián)系我們：

0592-6532122

wangjing@cncn.net

欣欣旅行社同業(yè)社群招募

欣欣旅行社同業(yè)社群招募中，
勾搭小編微信號：cncn4021入社群

久久国产精品无码网站,女人喷液抽搐高潮视频,无码人妻精品中文字幕免费东京热,无码精品不卡一区二区三区

淺談百度如何收錄我們的旅游線路（收錄篇）