搜索引擎對文件的管理,同時也說了搜索引擎是有很多的數據庫組成,并且這些數據庫中還都有相互對應的關系,至于數據庫之間的關系,我們不去做討論,只要知道各個數據庫之間是相互呼應的就已經夠了。在之前我有在一篇文章里談到了優化企業網站要符合搜索引擎的喜好,大家可以去了解一下http://www.hthplzvh.cn/news/96.html
好了,今天我們就來談搜索引擎算法中的預處理機制,搜索引擎提取文字的機制,搜索引擎的預處理分為很多步驟,我會在我的SEO優化學習博客seo.chhua.com一一的對大家分享我目前已經了解的幾種,希望大家多多關注。
搜索引擎為什么做預處理?
原因很簡單,搜索引擎抓取來的數據幫復雜,也太龐大,而我們用戶在搜索的時候,搜索出來的速度是非常快的,如果數據太復雜太龐大了,就會拖跨數據庫,也會影響搜索引擎的運算速度,所以要對抓取來的數據進行處理分析,然后進行索引,以方便用戶的搜索。
在搜索引擎文件管理方法一文中,提到了模擬爬行蜘蛛的程序,這剛剛是搜索引擎提取文字最好模擬,把網頁中的HTML代碼和程序代碼(包含JS,AS)剔除之后進行入庫。
但是,通過我的分析和研究,搜索引擎在提取文字的過程中,絕對不是蜘蛛模擬那么簡單,絕對也不是只為了提取而提取,在提取的過程中,搜索引擎還要標記出比較特殊的標簽,比如<H1>標簽,<strong>標簽,<a>標簽等,然后對這些標簽進行初步的分析,把分析結果存入相應的數據庫,為以后的數據索引提供原始的數據,而這些標簽都是有什么作用,今天在這里不會多講,將會在以后的文章中專門來討論SEO站內優化的一系列理論。
OK,今天只談了搜索引擎預處理過程中的第一步:提取文字,但是對大家要糾正的是,搜索引擎在提取文字的時候,絕對不是只提取單獨的文字,還會對一些特殊標簽進行分析,然后入庫。