久久国产精品无码网站,女人喷液抽搐高潮视频,无码人妻精品中文字幕免费东京热,无码精品不卡一区二区三区

搜索引擎工作原理:索引與鏈接關(guān)系的計(jì)算

  我們知道搜索引擎蜘蛛在爬行和抓取網(wǎng)頁(yè)的時(shí)候進(jìn)行了提取文字信息,分詞,去噪,去重,最后便得到了一個(gè)關(guān)于頁(yè)面主題的關(guān)鍵詞集合,接下來(lái)搜索引擎會(huì)對(duì)這個(gè)集合進(jìn)行正向索引,即把每個(gè)頁(yè)面中的多個(gè)關(guān)鍵詞和頁(yè)面建立對(duì)應(yīng)關(guān)系,并且同時(shí)會(huì)對(duì)這些關(guān)鍵詞記錄它們的密度,頻率,表現(xiàn)格式等權(quán)重信息,表現(xiàn)格式主要是分析這些關(guān)鍵詞是否使用了H1標(biāo)簽,是否使用了粗體或顏色變化,是否出現(xiàn)在了頁(yè)面的title,description,keywords標(biāo)簽等權(quán)重標(biāo)簽。

  當(dāng)這個(gè)正向索引關(guān)鍵詞集合建立起來(lái)以后,依然不能用來(lái)進(jìn)行排名計(jì)算,如果用戶(hù)在搜索引擎中輸入關(guān)鍵詞,那么搜索引擎需要在這個(gè)集合中先找見(jiàn)關(guān)鍵詞,然后再找出與關(guān)鍵詞對(duì)應(yīng)的頁(yè)面,最后通過(guò)進(jìn)行復(fù)雜的計(jì)算程序得出排名,顯然這個(gè)運(yùn)算過(guò)程在短時(shí)間內(nèi)是難以完成的。為了提高用戶(hù)搜索信息能實(shí)時(shí)返回結(jié)果,搜索引擎會(huì)對(duì)上面得到的正向索引信息進(jìn)行反向索引,即以關(guān)鍵詞為單位,把跟它對(duì)應(yīng)的頁(yè)面放入同一個(gè)集合中,這樣在用戶(hù)搜索關(guān)鍵詞進(jìn)行排序的時(shí)候,搜索引擎只要找到匹配的關(guān)鍵詞就能返回包含這個(gè)關(guān)鍵詞的頁(yè)面集合,當(dāng)搜索引擎預(yù)處理工作進(jìn)行到這里時(shí),大家是不是對(duì)它的工作原理已經(jīng)有點(diǎn)明朗了。

  當(dāng)搜索引擎進(jìn)行反向索引之后,還需要計(jì)算大量的相關(guān)信息才能對(duì)頁(yè)面做出排名,在這個(gè)過(guò)程中最為關(guān)鍵的就是計(jì)算頁(yè)面的鏈接關(guān)系,比如有哪些頁(yè)面通過(guò)鏈接導(dǎo)入這個(gè)頁(yè)面,這個(gè)頁(yè)面導(dǎo)出了哪些鏈接,鏈接的錨文本采用了哪些關(guān)鍵詞等等,這個(gè)運(yùn)算量是非常龐大的。關(guān)于計(jì)算鏈接關(guān)系,google的PR值就是這種鏈接關(guān)系的一種體現(xiàn)。

  除了對(duì)html文件進(jìn)行索引外,搜索引擎還能對(duì)其他形式的文件進(jìn)行索引,比如常見(jiàn)的TXT,PPT,WORD,PDF文件等,雖然現(xiàn)在搜索引擎對(duì)圖片,F(xiàn)lash動(dòng)畫(huà),視頻的索引能力大大增強(qiáng),但是跟索引html文件能力比起來(lái),還是有一段距離的,所以大家在網(wǎng)站中放置一些圖片,動(dòng)畫(huà)或者視頻的時(shí)候,最好配上文字說(shuō)明,為搜索引擎蜘蛛做出引導(dǎo),減輕它的工作壓力。

發(fā)表評(píng)論

匿名匿名

提示:請(qǐng)先登錄再進(jìn)行評(píng)論,