網(wǎng)站性能檢測(cè)評(píng)分
注:本網(wǎng)站頁(yè)面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。
分詞
PHP+MYSQL 簡(jiǎn)單實(shí)現(xiàn)中文分詞全文索引 行業(yè)視頻課程
相信很多人都研究過MYSQL的中文全文索引問題,目前MYSQL不支持中文全文索引,無(wú)奈~~~ 網(wǎng)上找了N多關(guān)于PHP+MYSQL中文全文索引的文章都沒有一個(gè)好用的,對(duì)于一般的菜鳥根本不知道怎么使用,PHP中文分詞有DDEDE的,DEDE的詞庫(kù)不是很強(qiáng)大,還算可以用吧! 還有一個(gè)是《SCWS-簡(jiǎn)易中文分詞系統(tǒng)》這個(gè)目前對(duì)于一般菜鳥根本不知道怎么用,雖然有人編譯了Windows版的,但安裝還是挺麻煩的,我尚未測(cè)試過! //========================== 廢話不多說了,首先去DEDE下載分詞算法函數(shù)和詞庫(kù);下載地址:http://www.dedecms.com/html/chanpinxiazai/20061229/3.html 里面有詳細(xì)的使用說明,我在這里舉一個(gè)使用的例子; MYSQL表名:music 字段:title,tag require("lib_splitword_full.php"); $str="這里是你要分詞的內(nèi)容,一般不要超過1024KB會(huì)好一點(diǎn),否則會(huì)很慢!"; $sp=newSplitWord();//實(shí)例化 $dd=explode("",$sp->SplitRMM($str)); $i=0; foreach($ddas$key=>$var){ if(strlen($var)>2)//UTF8編碼的請(qǐng)?jiān)O(shè)置為3,因?yàn)閁TF8編碼的中文一般為3個(gè)字節(jié)以上,過濾單個(gè)字不保存! { $str.=base64_encode($var)."";//由于MYSQL不支持中文全文索引,所以在分詞中我們必須把詞轉(zhuǎn)換成字母或者數(shù)字,這里我選擇了base64編碼 //當(dāng)然大家還可以把中文轉(zhuǎn)成區(qū)碼,但我測(cè)試過區(qū)碼的方法,感覺很一般,所以在這樣我推薦大家使用base64 $i++; } if($i>=50)break;//這里是設(shè)置你要存儲(chǔ)多少個(gè)詞組,如果是文章可能會(huì)有N多詞組,你可以設(shè)置大一點(diǎn),但如果你對(duì)標(biāo)題分詞的話,50個(gè)已經(jīng)足夠了! //這樣運(yùn)行未編碼得出來的結(jié)果:這里分詞內(nèi)容一般不要超過1024KB一點(diǎn)否則 //base64編碼后的結(jié)果:1eLA7w==t9a0yg==xNrI3Q==0ruw4w==srvSqg==s6y5/Q==MTAyNEtC0ru14w==t/HU8g== } ?> 這樣我們就可以把分好詞而且轉(zhuǎn)換成編碼的分詞存進(jìn)tag字段了,當(dāng)然tag字段必須設(shè)置成全文索引fulltext而且數(shù)據(jù)表類型必須為MyISAM。 tag字段數(shù)據(jù)類型為CHAR和VARCHAR、text,有關(guān)如何創(chuàng)建MYSQL全文索引,大家可以搜索一下《mysql創(chuàng)建索引》遍地開花,到處都是! 下面的例子是根據(jù)TAG字段的內(nèi)容進(jìn)行全文索引查詢: include("Mysql.class.php"); $rs=$DB->get_one("selecttitle,tagfrommusicwhereid=$id");//根據(jù)ID讀取title和tag字段內(nèi)容 $title=$rs['title']; $sql=$DB->query("selecttitle,MATCH(tag)AGAINST('".trim($rs['tag'])."'INBOOLEANMODE)ASscorefrommusicwhereMATCH(tag)AGAINST('".trim($rs['tag'])."'INBOOLEANMODE)ORDERBYscoreDESClimit21");//這里是查詢20條相似的內(nèi)容,而且按相似的排序,21是因?yàn)橥粭l記錄都會(huì)匹配出來! while($rs=$DB->fetch_array($sql)) { if($rs['title']!=$title) { echo$rs['title']."
"; } } $DB->close(); ?> 如果大家想看效果可以到我的小站看演示:http://www.dj965.com 以上的例子就實(shí)現(xiàn)了PHP+MYSQL簡(jiǎn)單的中文分詞全文索引! 希望對(duì)跟我一樣的菜鳥有一定的幫助吧! 本人BLOG:
"; } } $DB->close(); ?> 如果大家想看效果可以到我的小站看演示:http://www.dj965.com 以上的例子就實(shí)現(xiàn)了PHP+MYSQL簡(jiǎn)單的中文分詞全文索引! 希望對(duì)跟我一樣的菜鳥有一定的幫助吧! 本人BLOG:
百度和谷歌關(guān)鍵詞密度算法及分詞技術(shù)分析 關(guān)鍵詞視頻課程
各位站長(zhǎng)在做優(yōu)化的時(shí)候都會(huì)刻意的注意網(wǎng)站的關(guān)鍵詞密度,關(guān)鍵詞太少對(duì)網(wǎng)站的排名會(huì)有一些影響,但是關(guān)鍵詞密度太高又怕被懲罰,那么我們?cè)谧鼍W(wǎng)站優(yōu)化的時(shí)候關(guān)鍵詞密度多少才算合適呢?另外百度和谷歌的關(guān)鍵詞分詞技術(shù)有哪些區(qū)別呢,我們?nèi)缦伦銎饰觥F胀ǘ跃W(wǎng)站關(guān)鍵詞密度在3%-5%左右,但是是否代表我們用普通的網(wǎng)站關(guān)鍵詞密度分析工具或軟件測(cè)試出來的關(guān)鍵詞密度就是網(wǎng)站關(guān)鍵詞的真實(shí)密度呢?這個(gè)密度的準(zhǔn)確性主要看是針對(duì)百度還是谷歌而言了,根據(jù)雪域長(zhǎng)久以來的分析發(fā)現(xiàn)百度和谷歌的關(guān)鍵詞密度算法是不同的,如下圖我們通過工具測(cè)試的保安公司這個(gè)關(guān)鍵詞的關(guān)鍵詞密度。(版權(quán)所有:雪域北京信息網(wǎng)轉(zhuǎn)載請(qǐng)保留版權(quán)) 通過計(jì)算我們得到的關(guān)鍵詞出現(xiàn)頻率是22次。密度已經(jīng)達(dá)到11.2%可以說已經(jīng)超標(biāo)了,但是是否真的屬于關(guān)鍵詞密度過高呢,我們接下來分析百度的關(guān)鍵詞密度算法。(版權(quán)所有:雪域北京信息網(wǎng)轉(zhuǎn)載請(qǐng)保留版權(quán)) 我們現(xiàn)在可以看到的保安公司這個(gè)關(guān)鍵詞的頻度是14次,再加上描述和標(biāo)題里面的關(guān)鍵詞頻度基本上接近上面我們用工具檢測(cè)到的關(guān)鍵詞頻度?,F(xiàn)在可以確認(rèn)關(guān)鍵詞密度檢測(cè)工具的算法和百度基本吻合,那么是否谷歌也是這樣算密度的呢?我們下面分析谷歌的密度算法模式。(版權(quán)所有:雪域北京信息網(wǎng)轉(zhuǎn)載請(qǐng)保留版權(quán)) 現(xiàn)在我們看到上面圖片是谷歌的關(guān)鍵詞密度分布圖,按照谷歌這樣的統(tǒng)計(jì)模式我們的關(guān)鍵詞已經(jīng)遠(yuǎn)遠(yuǎn)超出了關(guān)鍵詞密度檢測(cè)工具的關(guān)鍵詞頻度,顯然關(guān)鍵詞密度檢測(cè)工具是按照百度的模式算密度的。各位也許看到這兩張百度和谷歌的關(guān)鍵詞分布圖可以看出,百度的關(guān)鍵詞算法模式是嚴(yán)格按照網(wǎng)民搜索的關(guān)鍵詞來匹配的。而谷歌則是可以分散模式拼合關(guān)鍵詞,這就是我們網(wǎng)站優(yōu)化師經(jīng)常說到的分詞技術(shù)。那么這兩個(gè)搜索引擎的關(guān)鍵詞布局是否已經(jīng)給了大家一些網(wǎng)站優(yōu)化方面的感想呢?雪域在此給大家具體分析一下百度和谷歌關(guān)鍵詞優(yōu)化技法及布局方式介紹。 大家在做百度優(yōu)化時(shí)網(wǎng)站內(nèi)容中關(guān)鍵詞最好是和你所優(yōu)化的關(guān)鍵詞吻合,比如我們要突出保安公司這個(gè)關(guān)鍵詞,那么我們就需要在網(wǎng)站內(nèi)容中增加一些關(guān)于保安公司的文章,在關(guān)鍵詞之間不要加多余的符號(hào),比如保安,公司這對(duì)于百度來說是兩個(gè)關(guān)鍵詞,所以各位在做網(wǎng)站優(yōu)化時(shí)每一個(gè)細(xì)節(jié)都需要嚴(yán)格審核。(版權(quán)所有:雪域北京信息網(wǎng)轉(zhuǎn)載請(qǐng)保留版權(quán)) 谷歌關(guān)鍵詞優(yōu)化的話我們就可以采取相對(duì)輕松的模式了,假如我們?cè)谧龆鄠€(gè)關(guān)鍵詞時(shí),可以采用一句話來描述如:北京保安公司那么對(duì)于谷歌而言可以拆解為北京保安、保安公司、北京保安公司、保安這四個(gè)關(guān)鍵詞,也就是說如果我們要優(yōu)化這四個(gè)詞的話可以用這一個(gè)詞就可以把四個(gè)關(guān)鍵詞搞定。下面我們看看谷歌中排名不錯(cuò)的網(wǎng)站,谷歌是如何抓詞的。 谷歌中輸入保安公司,大家可以看到谷歌標(biāo)題抓取模式 (版權(quán)所有:雪域北京信息網(wǎng)http://www.010xxw.com/轉(zhuǎn)載請(qǐng)保留版權(quán))
搜索引擎中文分詞技術(shù) 企業(yè)視頻課程
由于很多朋友要求寫一篇搜索引擎分詞技術(shù)的文章,特別是關(guān)于百度分詞的。我今天就發(fā)發(fā)給大家 Moon10月9號(hào)在SEOWHY周四答疑群給講解的分詞技術(shù)今天給大家帖出來供大家學(xué)習(xí)一下。 分詞技術(shù):什么是分詞,如何分詞搜索引擎會(huì)承認(rèn),這次第一位朋友提的問題,想必大家也聽說過,很好奇,什么是分詞技術(shù),什么又是百度分詞呢?分詞大家容易理解。就是一段詞用字符分開,比如標(biāo)點(diǎn)符號(hào),空格等。 那什么叫分詞技術(shù)呢?分詞技術(shù)就是SE針對(duì)用戶提交查詢的關(guān)鍵串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。大家好好理解。那么我們要理解分詞技術(shù)先要理解一個(gè)概念。那就是查詢處理,當(dāng)用戶向搜索引擎提交查詢后,搜索隱藏接收到用戶的信息要做一系列的處理。首先是到數(shù)據(jù)庫(kù)里面索引相關(guān)的信息, 這就是查詢處理,那么查詢處理又是如何工作的呢?很簡(jiǎn)單,把用戶提交的字符串沒有超過3個(gè)的中文字,就會(huì)直接到數(shù)據(jù)庫(kù)索引詞匯。超過4個(gè)中文字的,首先用分隔符比如空格,標(biāo)點(diǎn)符號(hào),將查詢串分割成若干子查詢串。舉個(gè)例子。“什么是百度分詞技術(shù)”我們就會(huì)把這個(gè)詞分割成“什么是,百度,分詞技術(shù)。”這種分詞方法叫做反向匹配法。2.然后再看用戶提供的這個(gè)詞有沒有重復(fù)詞匯。 如果有的話,會(huì)丟棄掉,默認(rèn)為一個(gè)詞匯。接下來檢查用戶提交的字符串,有沒有字母和數(shù)字。如果有的話,就把字母和數(shù)字認(rèn)為一個(gè)詞。好了,這就是SE的查詢處理。 講了查詢處理后,大家對(duì)分詞技術(shù),尤其是中文分詞技術(shù)有了一個(gè)基本的了解。 其實(shí)我講的都是搜索引擎的原理。好了,我接下來講分詞的原理。我們用百度來舉例 百度是如何來分詞的呢?分詞技術(shù)現(xiàn)今非常成熟了。他分為3種技術(shù)。 1.字符串匹配的分詞方法 2.詞義分詞法。 3.統(tǒng)計(jì)分此法。 先說第一種。 也是常用的分詞法,百度就是用此種分詞。字符串匹配的分詞方法,他又分為3中分詞方法。 1.正向最大匹配法 什么意思呢?就是把一個(gè)詞從左至右來分詞。 舉個(gè)例子。 “不知道你在說什么” 這句話采用正向最大匹配法是如何分的呢?“不知道,你,在,說什么”與正向最大匹配法相對(duì)應(yīng)的是反向最大匹配發(fā)。這是第二種分詞方法。 2.反向最大匹配法來分上面我舉的例子是如何分的呢"不知道你在說什么"。反向最大匹配法來分上面這段是如何分的。“不,知道,你在,說,什么”,這個(gè)就分的比較多了,反向最大匹配法就是從右至左。 3.就是最短路徑分詞法。 這個(gè)什么理解呢,就是說我一段話里面要求切出的詞數(shù)是最少的。還是上面哪句話 “不知道你在說什么”最短路徑分詞法就是指,我把上面哪句話分成的詞要是最少的。不知道,你在,說什么,這就是最短路徑分詞法,分出來就只有3個(gè)詞了。好了,當(dāng)然還有上面三種可以相互結(jié)合組成一些分詞方法。比如正向最大匹配法和反向最大匹配法組合起來就可以叫做雙向最大匹配法。好了,第一種說完了, 2.詞義分詞法。 這種其實(shí)就是一種機(jī)器語(yǔ)音判斷的分詞 方法。很簡(jiǎn)單,進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象來分詞,這種分詞方法,現(xiàn)在還不成熟。處在測(cè)試階段。 第三種,統(tǒng)計(jì)的分詞方法。 這個(gè)很簡(jiǎn)單,就是根據(jù)詞組的統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)兩個(gè)相鄰的字出現(xiàn)的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶提供字符串中的分隔符。這樣來分詞。比如,“我的,你的,許多的,這里,這一,那里”。等等,這些詞出現(xiàn)的比較多,就從這些詞里面分開來。好了,分詞技術(shù)講完了。 那么我們剛剛學(xué)了分詞技術(shù),又如何來運(yùn)用他們?yōu)槲覀兊恼军c(diǎn)獲得流量呢 1.我們可以利用分詞技術(shù)來增加我們站點(diǎn)長(zhǎng)尾詞。這樣就可以獲取流量排名。 不但這些分出來的長(zhǎng)尾詞能夠獲取一定的排名,也能夠推動(dòng)站點(diǎn)的目標(biāo)關(guān)鍵詞獲取很好的排名。這個(gè)原理就是內(nèi)鏈原理,這里不再講了。講了這么多,我們舉個(gè)例子。 例如:三亞酒店預(yù)定,如何來分呢? 正向最大匹配,反向最大匹配,雙向最大匹配,最短鏈接匹配。 1.正向最大匹配 “三亞,酒店預(yù)定” 2.反向最大匹配 “三亞酒店,預(yù)定” 3.雙向最大匹配 “三亞,酒店,預(yù)定” 4.最短路徑最大匹配。 “三亞酒店預(yù)定”好了,我們分了詞為 “三亞,“酒店預(yù)定,預(yù)定,三亞酒店,三亞,酒店,三亞酒店預(yù)定。” 這些詞每個(gè)都可以做一個(gè)主題頁(yè)為目標(biāo)關(guān)鍵詞 這些分出來的詞,把他們都作為你站點(diǎn)的主題頁(yè),導(dǎo)入鏈接權(quán)重上來了,競(jìng)爭(zhēng)力就大了,因?yàn)檫@些頁(yè)面把他內(nèi)鏈起來。用錨鏈接,指向主頁(yè)的目標(biāo)關(guān)鍵詞。呵呵,這就是分詞的好處。他能夠提升目標(biāo)關(guān)鍵詞的排名的競(jìng)爭(zhēng)力也同時(shí)給站點(diǎn)帶來一定流量。一旦導(dǎo)入鏈接權(quán)重上來了,競(jìng)爭(zhēng)力就大了,因?yàn)檫@些頁(yè)面把他內(nèi)鏈起來。 用錨鏈接,指向主頁(yè)的目標(biāo)關(guān)鍵詞。呵呵,這就是分詞的好處。他能夠提升目標(biāo)關(guān)鍵詞的排名的競(jìng)爭(zhēng)力也同時(shí)給站點(diǎn)帶來一定流量。分詞還有一種好處。那就是提升內(nèi)頁(yè)的排名。好的,這個(gè)我就不詳細(xì)講了。因?yàn)槲以赟EOWHY已經(jīng)寫了一篇文章。大家可以去看一下。就是關(guān)于百度,捕獲描述的文章。如果你的內(nèi)頁(yè)不做描述,那么百度就會(huì)給你定義一個(gè)描述或者從你的頁(yè)面捕獲一個(gè)描述。在捕獲描述的時(shí)候,如果你的知道他會(huì)捕獲哪一段,那么你說,你的排名會(huì)不會(huì)上升。你就刻意寫哪一段。 我寫的那篇文章地址如下。大家可以去看一下。 http://www.seowhy.com/bbs/thread-4451-1-1.html 最近有朋友整理出來并且轉(zhuǎn)載了,轉(zhuǎn)載沒有關(guān)系,請(qǐng)注明作者和出處(SEOWHY) 編輯推薦:學(xué)習(xí)網(wǎng)站優(yōu)化推廣的專業(yè)網(wǎng)站——選學(xué)網(wǎng) ,內(nèi)容非常不錯(cuò),學(xué)習(xí),網(wǎng)站推廣的朋友一定不要錯(cuò)過。