1、提取文字
由于搜索引擎蜘蛛抓取的是頁(yè)面的HTML代碼,里面包含了大量的HTML標(biāo)簽、js等無(wú)法用到排名上的內(nèi)容,所以搜索引擎索引首先要做的就是那其中的HTML標(biāo)簽、js去掉,保留剩下的頁(yè)面文字內(nèi)容。
2、中文分詞
中文分詞是搜索引擎特有的步驟,英文單詞之間會(huì)有空格做分隔,而中文詞與詞之間沒(méi)有分隔符號(hào),一個(gè)句子字與詞都是連在一起的。中文搜索引擎必須首先分辨那幾個(gè)字組成一個(gè)詞,那些字本身就是一個(gè)詞。
3、去停止詞
在頁(yè)面內(nèi)容中會(huì)存在很多對(duì)內(nèi)容沒(méi)有影響的詞,比如“的”、“之”、“啊”之類。搜索引擎在索引時(shí)會(huì)把這些詞去掉,讓頁(yè)面內(nèi)容的主題更突出。
4、去重(為什么偽原創(chuàng)弊大于利)
搜索引擎為了減少搜索結(jié)果中出現(xiàn)的重復(fù)內(nèi)容會(huì)選取頁(yè)面內(nèi)容中出現(xiàn)頻率最高的詞,通常會(huì)選出10個(gè)左右關(guān)于頁(yè)面的關(guān)鍵詞來(lái)計(jì)算頁(yè)面的“指紋”。
5、索引
經(jīng)過(guò)以上步驟之后,搜索引擎就可以提煉出可以代表一個(gè)頁(yè)面內(nèi)容的一些關(guān)鍵詞,同時(shí)記錄這些詞在網(wǎng)頁(yè)上出現(xiàn)的頻率、出現(xiàn)次數(shù)、格式、位置等信息。
6、鏈接關(guān)系計(jì)算
在頁(yè)面中存在連接時(shí),搜索引擎會(huì)計(jì)算這些鏈接都只想那些頁(yè)面,每個(gè)頁(yè)面都有哪些導(dǎo)入鏈接,鏈接使用了什么文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。
7、頁(yè)面質(zhì)量判斷
在這個(gè)階段,搜索引擎會(huì)對(duì)頁(yè)面內(nèi)容質(zhì)量、鏈接質(zhì)量等作出判斷,比如百度的綠蘿、石榴算法。
北京網(wǎng)站優(yōu)化不再是簡(jiǎn)單的發(fā)發(fā)外鏈,更新站內(nèi)內(nèi)容就可以的,需要我們深入去研究做網(wǎng)站優(yōu)化的。網(wǎng)站想要有排名有好的排名是很難做的。北京高端網(wǎng)站建設(shè)公司提醒您,做網(wǎng)站優(yōu)化一定要多方學(xué)習(xí)參考。做網(wǎng)站優(yōu)化,一定要了解搜索引擎是如何工作的。
文章出自:北京網(wǎng)站建設(shè)公司-前潮網(wǎng)絡(luò) http://m.gg529.com 如需轉(zhuǎn)載請(qǐng)注明,010-57227103.
校園跑腿app開發(fā)要具備什么條件?校園跑腿業(yè)...
對(duì)于不少大學(xué)生來(lái)講,平時(shí)吃飯離不開一些校園跑腿外賣類app軟件,而且校園跑腿app之所以能夠吃得開,就是因?yàn)閷W(xué)生...
2023-11-30
教育app應(yīng)該怎樣提升用戶體驗(yàn)?zāi)兀?..
互聯(lián)網(wǎng)的快速發(fā)展,對(duì)傳統(tǒng)的教育方式產(chǎn)生了很大的影響。學(xué)生借助線上學(xué)習(xí)平臺(tái),更快捷、方便地學(xué)習(xí);教師通過(guò)線上...
2023-10-10
在線教育類APP怎么樣才能做好呢?...
隨著時(shí)代的發(fā)展,傳統(tǒng)教育培訓(xùn)機(jī)構(gòu)在移動(dòng)互聯(lián)網(wǎng)沖擊下,很多企業(yè)都開始轉(zhuǎn)型定制開發(fā)在線教育類APP軟件,尤其2020...
2023-10-09
北京教育類app開發(fā),助力行業(yè)進(jìn)一步數(shù)字化轉(zhuǎn)...
AIGC是指生成式人工智能,是以往人工智能技術(shù)的集大成者,推動(dòng)了人工智能進(jìn)入2.0時(shí)代,算法的迭代更新使得AIGC技...
2023-10-08