網(wǎng)站性能檢測(cè)評(píng)分
注:本網(wǎng)站頁面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。
黃頁行業(yè)
python多進(jìn)程快速批量爬取黃頁海量信息并保存文本和數(shù)據(jù)庫教程 企業(yè)視頻課程
最近幫朋友做一些網(wǎng)絡(luò)營(yíng)銷的工作,需要抓取一些客源信息,用以輔助營(yíng)銷,我感覺很多做電商的朋友,尤其是微商朋友們,應(yīng)該都是比較需要各種客源信息的吧,今天,小編我就借此機(jī)會(huì)把利用python多進(jìn)程的方式抓取黃頁海量的客源信息的方法分享給大家,希望大家能多多關(guān)注本人,多討論關(guān)于爬蟲和數(shù)據(jù)挖掘分析相關(guān)的問題。
該代碼已經(jīng)上傳至本人的github,喜歡的朋友可到我的公眾號(hào)獲取。
一、特別提到的庫:
多進(jìn)程:pool
mogo數(shù)據(jù)庫:pymongo
自然語言編碼轉(zhuǎn)換:codecs
二、特別推薦----jupyter
做開發(fā)沒有趁手的兵器是不行的,對(duì)于python腳本的開發(fā)以及做一些數(shù)據(jù)挖掘和分析這方面工作來說,jupyter notebook這個(gè)工具是一個(gè)非常合適的工具,它可以保存你寫的階段性的小腳本,同時(shí),又不至于像ipython那樣把有價(jià)值的歷史代碼被滾屏所淹沒,關(guān)于這個(gè)工具的其他優(yōu)點(diǎn),大家可以自行百度,總之,這是一個(gè)python開發(fā)的一個(gè)神器,借助它可以快速的寫出很多高效的代碼出來。
三、主要代碼:
這次抓取的站點(diǎn)是黃頁88網(wǎng),網(wǎng)站放置行業(yè)信息的結(jié)構(gòu)是這樣的,按照行業(yè)來抓取的話,首先是分為各種行業(yè),每種行業(yè)下面又可以獲取到各個(gè)省份的該行業(yè)的信息。
為了能夠按照行業(yè)進(jìn)行抓取,我們可以先把首頁出現(xiàn)的行業(yè)分類抓取下來,保存為字典,這一步的方法就不仔細(xì)說了,請(qǐng)自行解決。我已經(jīng)保存好了字典,將起保存在一個(gè)單獨(dú)的配置文件中,方便調(diào)用時(shí)使用。
獲取各個(gè)行業(yè)對(duì)應(yīng)的每個(gè)省的url,我們可以寫一個(gè)函數(shù)來完成,返回一個(gè)url的列表。
有了這個(gè)url以后,就可以直接得到內(nèi)容了,其中翻頁的時(shí)候需要注意url中控制頁碼是通過pn變量實(shí)現(xiàn)的,也需要對(duì)最后一頁做一下判斷,否則就會(huì)形成死循環(huán)。這一步就已經(jīng)把數(shù)據(jù)寫入了txt文件中。
最后是執(zhí)行爬蟲的的代碼,這里用到了多線程,同時(shí)需要存入mongodb的數(shù)據(jù)庫。
由于自媒體發(fā)布的時(shí)候貼代碼不太方便,感興趣的朋友關(guān)注我的同名訂閱號(hào)獲取github地址吧!