中企動(dòng)力 > 頭條 > 黃頁行業(yè)

網(wǎng)站性能檢測(cè)評(píng)分

注：本網(wǎng)站頁面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題，僅供參考。

免費(fèi)檢測(cè)

黃頁行業(yè)

python多進(jìn)程快速批量爬取黃頁海量信息并保存文本和數(shù)據(jù)庫教程企業(yè)視頻課程

夏真

關(guān)注

最近幫朋友做一些網(wǎng)絡(luò)營(yíng)銷的工作，需要抓取一些客源信息，用以輔助營(yíng)銷，我感覺很多做電商的朋友，尤其是微商朋友們，應(yīng)該都是比較需要各種客源信息的吧，今天，小編我就借此機(jī)會(huì)把利用python多進(jìn)程的方式抓取黃頁海量的客源信息的方法分享給大家，希望大家能多多關(guān)注本人，多討論關(guān)于爬蟲和數(shù)據(jù)挖掘分析相關(guān)的問題。

該代碼已經(jīng)上傳至本人的github，喜歡的朋友可到我的公眾號(hào)獲取。

一、特別提到的庫：

多進(jìn)程：pool

mogo數(shù)據(jù)庫：pymongo

自然語言編碼轉(zhuǎn)換：codecs

二、特別推薦----jupyter

做開發(fā)沒有趁手的兵器是不行的，對(duì)于python腳本的開發(fā)以及做一些數(shù)據(jù)挖掘和分析這方面工作來說，jupyter notebook這個(gè)工具是一個(gè)非常合適的工具，它可以保存你寫的階段性的小腳本，同時(shí)，又不至于像ipython那樣把有價(jià)值的歷史代碼被滾屏所淹沒，關(guān)于這個(gè)工具的其他優(yōu)點(diǎn)，大家可以自行百度，總之，這是一個(gè)python開發(fā)的一個(gè)神器，借助它可以快速的寫出很多高效的代碼出來。

三、主要代碼：

這次抓取的站點(diǎn)是黃頁88網(wǎng)，網(wǎng)站放置行業(yè)信息的結(jié)構(gòu)是這樣的，按照行業(yè)來抓取的話，首先是分為各種行業(yè)，每種行業(yè)下面又可以獲取到各個(gè)省份的該行業(yè)的信息。

為了能夠按照行業(yè)進(jìn)行抓取，我們可以先把首頁出現(xiàn)的行業(yè)分類抓取下來，保存為字典，這一步的方法就不仔細(xì)說了，請(qǐng)自行解決。我已經(jīng)保存好了字典，將起保存在一個(gè)單獨(dú)的配置文件中，方便調(diào)用時(shí)使用。

獲取各個(gè)行業(yè)對(duì)應(yīng)的每個(gè)省的url，我們可以寫一個(gè)函數(shù)來完成，返回一個(gè)url的列表。

有了這個(gè)url以后，就可以直接得到內(nèi)容了，其中翻頁的時(shí)候需要注意url中控制頁碼是通過pn變量實(shí)現(xiàn)的，也需要對(duì)最后一頁做一下判斷，否則就會(huì)形成死循環(huán)。這一步就已經(jīng)把數(shù)據(jù)寫入了txt文件中。

最后是執(zhí)行爬蟲的的代碼，這里用到了多線程，同時(shí)需要存入mongodb的數(shù)據(jù)庫。

由于自媒體發(fā)布的時(shí)候貼代碼不太方便，感興趣的朋友關(guān)注我的同名訂閱號(hào)獲取github地址吧！

400-660-5555 在線客服

展開

狠狠操夜夜甜|人妻在线中文字幕亚洲无码不卡av|一区二区欧美亚洲|日躁夜躁狠狠躁2001|亚洲,超碰,欧美|18AV成人电影|午夜成人免费在线|婷婷激情网深爱五月|色欲综合成人在线|在线美女搞黄大片

黃頁行業(yè)

python多進(jìn)程快速批量爬取黃頁海量信息并保存文本和數(shù)據(jù)庫教程 企業(yè)視頻課程

python多進(jìn)程快速批量爬取黃頁海量信息并保存文本和數(shù)據(jù)庫教程企業(yè)視頻課程