• 一 個(gè) 搜 索引擎程序主要由搜索器、索引器.檢索器和用戶接口等四個(gè)部分組成,主要存儲(chǔ)設(shè)備由頁(yè)面存儲(chǔ)器和存儲(chǔ)桶兩部分組成。
• 搜索器:爬蟲 抓取 壓縮 存儲(chǔ)庫(kù)
• 索引器:存儲(chǔ)庫(kù)提取網(wǎng)頁(yè)信息,分析和分解,建立關(guān)鍵字索引,初步排序處理,存入存儲(chǔ)桶,即硬件存儲(chǔ)單元。
• 用戶通過用戶接口提交查詢,檢索器根據(jù)輸入關(guān)鍵詞,在索引器和存儲(chǔ)桶進(jìn)行查找,并且采用算法進(jìn)行對(duì)結(jié)果的最終排序
網(wǎng)頁(yè)信息相關(guān)的頁(yè)面優(yōu)先度算法
• 以網(wǎng)頁(yè)內(nèi)容為基礎(chǔ)的算法:關(guān)鍵詞在特殊位置出現(xiàn)的狀況:例如titile,meta,des.
• 關(guān)鍵詞在頁(yè)面正文出現(xiàn)的狀況:關(guān)鍵詞出現(xiàn)總次數(shù),出現(xiàn)單詞平均間隔,關(guān)鍵詞出現(xiàn)的頻率。
• 以網(wǎng)頁(yè)鏈接為基礎(chǔ)的算法:例如PageRank算法 HITS算法 對(duì)于HITS不足補(bǔ)充加強(qiáng)的一些列算法。
用戶行為相關(guān)頁(yè)面的算法
• 不能忽略用戶對(duì)搜索結(jié)果相關(guān)性的意見。通過對(duì)WEB日志的分析,調(diào)整頁(yè)面優(yōu)先度
• 以點(diǎn)擊率為為基礎(chǔ)的Dir ect Hit 算法:通過搜索結(jié)果返回的點(diǎn)擊率和相關(guān)頁(yè)面停留時(shí)間長(zhǎng)短來判斷頁(yè)面受歡迎程度。
• 其他用戶行為:例如通過用戶行為二次篩選,逐漸縮小搜索結(jié)果與用戶期望的差距。Cookie記錄,熱門關(guān)鍵詞等。。
使站點(diǎn)被收錄
如何讓站點(diǎn)收錄
• 假如沒有給收錄,是否給搜索引擎封殺?是否蜘蛛訪問你的站點(diǎn)?
• 所有站點(diǎn)數(shù)據(jù)呈現(xiàn)下降趨勢(shì),甚至為零,并且多個(gè)搜索引擎出現(xiàn)這種情況
• 通過網(wǎng)站日志分析蜘蛛是否訪問站點(diǎn):沒有鏈接,無(wú)效鏈接,無(wú)功而返。
我們要吸引鏈接。
怎樣使更多網(wǎng)頁(yè)被收錄
• 消除蜘蛛陷阱:robots.txt的設(shè)置 不要用蜘蛛訪問不到的技術(shù)顯示內(nèi)容,例如彈出窗口,框架,F(xiàn)LASH,IMG,js 利用JS寫的下拉菜單。這樣一不能識(shí)別內(nèi)容,二不能順著鏈接爬行。 動(dòng)態(tài)URL地址過長(zhǎng),動(dòng)態(tài)參數(shù)過多,? & = 等等,避免進(jìn)入黑洞。。制作404頁(yè)面,確保服務(wù)器的響應(yīng)。。至少在10秒以內(nèi)能打開網(wǎng)站。
• 減少被忽視的內(nèi)容:精簡(jiǎn)網(wǎng)頁(yè),蜘蛛爬過一定大小的頁(yè)面就會(huì)停止爬行,加入網(wǎng)頁(yè)內(nèi)容過多,可以用不必要的內(nèi)容用JS來寫。。 FLASH里面確保是你不想被收錄的內(nèi)容,避免使用框架。
• 建立蜘蛛程序通道:設(shè)計(jì)站點(diǎn)地圖。
優(yōu)化內(nèi)容
搜索排名要素:主要的兩類
• 頁(yè)面要素:鏈接流行度,用戶行為,URL的長(zhǎng)度 和深度,新鮮程度:內(nèi)容,站點(diǎn)的結(jié)構(gòu),不要作弊
• 搜索請(qǐng)求要素:關(guān)鍵詞突出度,密度,頻率,內(nèi)容,TF*IDF,搜索項(xiàng)接近度
吸引鏈接到你站點(diǎn)
• 目前最重要排名因素還是由鏈接決定的。
• 內(nèi)容為王在以前的互聯(lián)網(wǎng)上是站有統(tǒng)計(jì)性的,但引起互聯(lián)網(wǎng)變化的不是內(nèi)容,和是鏈接。這正的互聯(lián)網(wǎng)是能容易從一部分內(nèi)容轉(zhuǎn)移到另外一部分內(nèi)容。1998年的GOOGLE出現(xiàn),打破了傳統(tǒng)的基于關(guān)鍵詞搜索排名算法,而是基于鏈接分析,利用鏈接來評(píng)判網(wǎng)頁(yè)等級(jí)質(zhì)量。PR
• 鏈接的流行度:鏈接數(shù)量,鏈接質(zhì)量,錨文本,
• 鏈接相關(guān)性:?jiǎn)渭兊腻^文本來判定相關(guān)是不夠的,搜索引擎會(huì)查看錨文本周邊的詞,查看整個(gè)頁(yè)面甚至整個(gè)鏈接來源站點(diǎn)上的詞。
鏈接的權(quán)重價(jià)值
• 內(nèi)部鏈接<在同一個(gè)家族內(nèi)<雙向鏈接<擁擠的單向鏈接<稀疏的單向鏈接
• 何為同一家族內(nèi)鏈接:IP WHOIS 重復(fù)類似的錨文本 對(duì)這些權(quán)重都不會(huì)高。。