2016年10月17日 星期一

搜尋引擎入手

新站點不需要"提交"到搜尋引擎才能登記上市。一個來自於已建立好的、其他站點的簡單鏈結就會讓搜尋引擎拜訪新站點,並且開始『爬』過該站內容。它可能得花幾天甚或幾週從這樣一個已建立站點取得連結,並使所有主要搜尋引擎開始拜訪並索引新站點。

一旦搜尋引擎發現了新站點,它一般將拜訪和開始索引該站,直到所有標準的 <a href> 超連結被鏈結的頁索引到為止。只能透過Flash或JavaScript才能拜訪的鏈結可能不會被蜘蛛機器人找到。

當搜尋引擎的蜘蛛機器人爬過一個站點時會取決相當數量的不同因子,並且該站的許多頁可能不會被索引到除非它們網頁級別、連結、或流量增加到一個程度。從站點的根目錄到該頁的距離,以及其它比重考量,也許也是決定是否該頁得到檢索的因素。Cho et al.(Cho et al. 1998)描述了哪些頁會被拜訪、哪些會收入搜尋引擎索引的決定標準。

網站員可透過在網域根目錄裡標準robots.txt檔案指示蜘蛛機器人不索引某些檔案或目錄。標準的實現要求是搜尋引擎在拜訪這個網域時參考這個檔案,雖然搜尋引擎的蜘蛛機器人當它拜訪某站點網頁時將保留這個檔案的快取拷貝,並且更新速度沒像網站員那麼快。

網站發展人員可能使用這個特性防止某些頁,譬如購物車或其它動態、特定使用者的內容出現在搜尋引擎結果中,並且防止機器人進入死循環和其它機器人陷阱。

對於某些有償提交的查尋引擎(像雅虎),支付象徵性費用提交也許會節省一些時間,雖然雅虎有償提交方案不保證提交人/公司包括在他們的查尋結果中。中文的搜狐和新浪ask等需要支付一定費用,但免費的非商業網站可以提供,當然搜尋引擎方並不保證一定收錄相應的網站。

沒有留言:

張貼留言