狠狠操夜夜甜|人妻在线中文字幕亚洲无码不卡av|一区二区欧美亚洲|日躁夜躁狠狠躁2001|亚洲,超碰,欧美|18AV成人电影|午夜成人免费在线|婷婷激情网深爱五月|色欲综合成人在线|在线美女搞黄大片

中企動(dòng)力 > 頭條 > python語言發(fā)展

網(wǎng)站性能檢測(cè)評(píng)分

注:本網(wǎng)站頁面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。

python語言發(fā)展

手把手:一張圖看清編程語言發(fā)展史,你也能用Python畫出來! 公司視頻課程

img

麗貝卡

關(guān)注

大數(shù)據(jù)文摘作品

作者:Peter Gleeson

編譯:周佳玉、丁慧、葉一、小魚、錢天培

今天文摘菌要教大家制作一張編程語言的關(guān)系網(wǎng)絡(luò)圖。如果不知道什么是關(guān)系網(wǎng)絡(luò)圖,可以點(diǎn)擊下方鏈接先來看一下最終成果:

http://programming-languages.herokuapp/#,

我們可以在這里看到從過去到現(xiàn)在的250多種編程語言之間的“設(shè)計(jì)影響”的關(guān)系,下面是該演示的截圖:

接下來,就讓我們一起來學(xué)做這個(gè)關(guān)系網(wǎng)絡(luò)圖吧!

在當(dāng)今的超連接世界,網(wǎng)絡(luò)在現(xiàn)代生活中無處不在。舉個(gè)栗子,文摘菌的周末這樣開啟——通過北京的交通網(wǎng)絡(luò)進(jìn)城,然后去最喜歡的咖啡店的一家分店,并將筆記本連上他們的Wi-Fi。接下來,登錄各種常用的社交網(wǎng)站。

眾所周知,在過去幾十年來最有影響力的公司中,有一部分是因?yàn)榫W(wǎng)絡(luò)的力量而獲得成功。

Facebook、Twitter、Instagram、LinkedIn以及一些其他的社交媒體平臺(tái)都依賴社交網(wǎng)絡(luò)的小世界特性。這使他們能有效地將用戶彼此(以及和廣告商)之間連接起來。

谷歌目前的成功主要?dú)w因于他們?cè)缙谠谒阉饕媸袌?chǎng)上的主導(dǎo)地位——部分原因是他們有能力通過他們的Page Rank網(wǎng)絡(luò)算法來返回相關(guān)的結(jié)果。

亞馬遜的高效配送網(wǎng)絡(luò)使他們能夠在一些主要城市提供當(dāng)天發(fā)貨。

網(wǎng)絡(luò)算法在人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域也是非常重要的。神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究非常熱門。計(jì)算機(jī)視覺中許多必不可少的特征檢測(cè)算法,在很大程度上也是依賴于使用網(wǎng)絡(luò)來對(duì)圖像的不同部分進(jìn)行建模。

網(wǎng)絡(luò)模型也可以解釋大量的科學(xué)現(xiàn)象,包括有量子力學(xué)、生化途徑以及生態(tài)和社會(huì)經(jīng)濟(jì)系統(tǒng)等。

那么,鑒于它們不可否認(rèn)的重要性,我們應(yīng)該如何更好地理解網(wǎng)絡(luò)及其屬性呢?

網(wǎng)絡(luò)的數(shù)學(xué)研究被稱為“圖論”,是數(shù)學(xué)中較易理解的分支之一。 本文會(huì)介紹簡(jiǎn)單的網(wǎng)絡(luò)知識(shí),即便你沒有相關(guān)背景知識(shí)也能輕松學(xué)會(huì)。

此外,我們將使用Python 3.x和一款非常棒的開源軟件Gephi,通過關(guān)系網(wǎng)絡(luò)將過去和現(xiàn)在的一系列編程語言的網(wǎng)絡(luò)可視化聯(lián)系起來。

首先,究竟什么是網(wǎng)絡(luò)呢?

其實(shí)上面文摘菌舉的栗子已經(jīng)給了一些線索。交通網(wǎng)絡(luò)由目的和路徑的連接組成。社交網(wǎng)絡(luò)通過個(gè)人和個(gè)人之間的關(guān)系進(jìn)行連接。Google的搜索引擎算法通過查看有哪些頁面鏈接到其他頁面,來評(píng)估不同網(wǎng)頁的“順序”。

更一般地說,網(wǎng)絡(luò)是可以用節(jié)點(diǎn)和邊描述的任何系統(tǒng),或者通俗來講,就是我們所說的“點(diǎn)和線”。

邊連接節(jié)點(diǎn)(語言)的例子(該網(wǎng)絡(luò)表示了編程語言相互影響的關(guān)系)

有些系統(tǒng)以這種方式建立網(wǎng)絡(luò)比較容易。社交網(wǎng)絡(luò)也許是最明顯的例子。計(jì)算機(jī)文件系統(tǒng)則是另一種方式——文件夾和文件通過其“父”和“子”關(guān)系創(chuàng)建連接。

但是,網(wǎng)絡(luò)的真正威力其實(shí)在于,許多系統(tǒng)都可以從網(wǎng)絡(luò)的角度來建模,即使這起初并不明顯。

代表網(wǎng)絡(luò)

我們應(yīng)該如何將點(diǎn)和線的圖片轉(zhuǎn)換成我們可以壓縮的數(shù)字信號(hào)呢?

其中有一個(gè)解決方案是繪制一個(gè)鄰接矩陣來表示我們的網(wǎng)絡(luò)。

如果你不熟悉矩陣這個(gè)概念,這聽起來可能有點(diǎn)嚇人,但不要害怕。 把它們想象成可以一次執(zhí)行許多計(jì)算的數(shù)字網(wǎng)格就好。下面是一個(gè)簡(jiǎn)單的例子:

在這個(gè)矩陣中,每個(gè)行和列的交集都是0或1,這取決于各個(gè)語言是否被鏈接。你也可以根據(jù)上面的插圖觀察到!

對(duì)于要解決的大多數(shù)問題而言,矩陣是以數(shù)學(xué)方式表示網(wǎng)絡(luò)的好方法。然而從計(jì)算的角度來看,它有時(shí)可能會(huì)有點(diǎn)麻煩。

例如,即使節(jié)點(diǎn)數(shù)量相對(duì)較少(比如說有1000個(gè)),矩陣中的元素?cái)?shù)目也會(huì)大得多(例如,1000^2 = 1,000,000)。

許多現(xiàn)實(shí)世界的系統(tǒng)會(huì)產(chǎn)生稀疏網(wǎng)絡(luò),在這些網(wǎng)絡(luò)中,大多數(shù)節(jié)點(diǎn)只能連接其他所有節(jié)點(diǎn)中的一小部分。

如果我們將計(jì)算機(jī)內(nèi)存中1000個(gè)節(jié)點(diǎn)的稀疏網(wǎng)絡(luò)表示為鄰接矩陣,那么我們將在RAM中存儲(chǔ)1,000,000個(gè)字節(jié)的數(shù)據(jù)。大多數(shù)將會(huì)是零。這里有一個(gè)更為有效的方法可以解決這個(gè)問題。

這種方法是使用邊列表來代替鄰接矩陣。這些正是他們所說的,它們只是一個(gè)節(jié)點(diǎn)對(duì)相互鏈接的列表。

表示網(wǎng)絡(luò)的另一種手段是鄰接表,它列出了每個(gè)節(jié)點(diǎn)后面與它進(jìn)行鏈接的節(jié)點(diǎn)。例如:

收集數(shù)據(jù),建立連接

任何網(wǎng)絡(luò)模型以及可視化的表現(xiàn)都取決于構(gòu)建網(wǎng)絡(luò)本身所用的數(shù)據(jù)質(zhì)量好壞。除了確保數(shù)據(jù)是準(zhǔn)確和完整的同時(shí),我們也需要一種推斷節(jié)點(diǎn)之間邊的合理方法。

這是相當(dāng)關(guān)鍵的一步,隨后對(duì)網(wǎng)絡(luò)進(jìn)行的任何分析和推斷都取決于“關(guān)聯(lián)標(biāo)準(zhǔn)”的合理性。

例如,在社交網(wǎng)絡(luò)分析中,你可能會(huì)根據(jù)人們是否在社交媒體上相互關(guān)聯(lián)來創(chuàng)建人與人之間的聯(lián)系。在分子生物學(xué)中,你可能會(huì)基于基因的共同表達(dá)建立連接。

通常,我們還可以給邊分配權(quán)重,從而體現(xiàn)關(guān)系的“強(qiáng)度”。

例如,對(duì)于網(wǎng)上零售的情況,可以根據(jù)產(chǎn)品被同時(shí)購(gòu)買的頻率來計(jì)算權(quán)重。用高權(quán)重的邊連接經(jīng)常被同時(shí)購(gòu)買的產(chǎn)品,用低權(quán)重的邊連接偶爾被同時(shí)購(gòu)買的產(chǎn)品。和偶爾被同時(shí)購(gòu)買的產(chǎn)品相比,那些不會(huì)被同時(shí)購(gòu)買的產(chǎn)品根本就不會(huì)被網(wǎng)絡(luò)連接。

正如你想的那樣,將節(jié)點(diǎn)彼此連接的方法有可能很復(fù)雜。

但是對(duì)于本教程,我們將使用更簡(jiǎn)單的方式連接編程語言。我們要依靠維基百科。

維基百科所取得的的成功證明了它的可靠性。文章寫作的開源合作方法也應(yīng)該保證一定程度的客觀性。

而且,它的頁面結(jié)構(gòu)相對(duì)一致,使其成為試用網(wǎng)頁抓取技術(shù)的便利場(chǎng)所。

另一個(gè)便利工具是覆蓋面廣泛的、有據(jù)可查的維基百科API,這使得信息檢索更容易。接下來讓我們一起開始吧。

第一步:安裝Gephi

Gephi可在Linux、Mac和Windows的環(huán)境下進(jìn)行安裝。

對(duì)于這個(gè)項(xiàng)目,我使用了Lubuntu。如果你使用的是Ubuntu / Debian,那么你可以按照下面的步驟來啟動(dòng)和運(yùn)行Gephi。如果不是,那么安裝過程也不會(huì)差太多。

下載最新版本的Gephi到你的系統(tǒng)(在撰寫本文時(shí)是v.0.9.1)。準(zhǔn)備就緒后,你需要提取文件。

你可能需要檢查你的Java JRE版本。Gephi需要最新版本。在我剛剛安裝的Lubuntu上,我只安裝了default-jre,下面的一切將建立在此基礎(chǔ)上。

在你準(zhǔn)備好進(jìn)行安裝之前還有一步。為了將圖表導(dǎo)出到Web,你可以使用Gephi的Sigma.js插件。

從Gephi的菜單欄中選擇“工具”選項(xiàng),然后選擇“插件”。

點(diǎn)擊“可用插件”標(biāo)簽并選擇“SigmaExporter”(我也安裝了JSON導(dǎo)出器,因?yàn)樗橇硪粋€(gè)有用的插件)。

點(diǎn)擊“安裝”按鈕,你將完成整個(gè)安裝過程。安裝結(jié)束后,你需要重新啟動(dòng)Gephi。

第二步:編寫Python腳本

本教程將使用python 3.x以及一些模塊來進(jìn)行簡(jiǎn)化。使用pip模塊安裝程序,需運(yùn)行一下命令。

現(xiàn)在,在一個(gè)新的目錄中,創(chuàng)建一個(gè)名為script.py的文件,并在你最喜歡的代碼編輯器/ IDE中打開它。以下是主要邏輯的大綱:

首先,你需要有一個(gè)編程語言的列表。

接下來,通過該列表并檢索維基百科相關(guān)文章的HTML。

從中提取出每種語言所影響的編程語言列表。這是我們連接節(jié)點(diǎn)的粗略標(biāo)準(zhǔn)。

同時(shí),我們可以抓取一些關(guān)于每種語言的元數(shù)據(jù)。

最后,將收集的所有數(shù)據(jù)寫入一個(gè).csv文件。

完整的腳本在這里:

(https://gist.github/anonymous/2a6c841fe04ebc6d55acc259b4ac4f72)。

導(dǎo)入模塊

在script.py中,首先導(dǎo)入一些模塊。

準(zhǔn)備好后——從創(chuàng)建一個(gè)節(jié)點(diǎn)的列表開始。這是Wikipedia模塊派上用場(chǎng)的地方。它使得訪問維基百科API非常容易。

添加下面的代碼:

保存并運(yùn)行上面的腳本,將看到打印出“List of programming languages”維基百科文章中的所有鏈接。

另外,還需要手動(dòng)檢查自動(dòng)收集的數(shù)據(jù)??焖贋g覽后我們可以發(fā)現(xiàn),除了許多實(shí)際的編程語言之外,該腳本還提供了一些額外的鏈接。

如:可能會(huì)看到“List of markup languages”,“Comparison of programming languages”等。

雖然Gephi允許你移除不想包含的節(jié)點(diǎn),但為了節(jié)省時(shí)間,還是讓我們先進(jìn)行一輪數(shù)據(jù)清洗。

這些代碼定義了要從數(shù)據(jù)中移除的子字符串列表。運(yùn)行該腳本時(shí)遍歷數(shù)據(jù),移除所有包含不需要的子字符串的元素。

在Python語言中,完成這些只需要一行代碼!

其他輔助函數(shù)

現(xiàn)在我們可以開始從wikipedia抓取數(shù)據(jù)并建立一個(gè)邊列表(并收集所有元數(shù)據(jù))。為了更簡(jiǎn)便,讓我們首先定義一些函數(shù)。

抓取HTML

第一個(gè)函數(shù)使用BeautifulSoup模塊來獲取每種語言的Wikipedia頁面的HTML。

這個(gè)函數(shù)使用urllib.request模塊來獲取“https://en.wikipedia.org/wiki/”+“編程語言”頁面的HTML。

然后傳給BeautifulSoup,它將讀取HTML并解析為一個(gè)可以用來搜索信息的對(duì)象。

接下來,使用find_all()方法抓取感興趣的HTML元素。

下面,是每種編程語言文章頂部的匯總表。該如何識(shí)別呢?

最簡(jiǎn)單的方法是訪問其中一個(gè)編程語言頁面。在這里,可以簡(jiǎn)單地使用瀏覽器的開發(fā)工具來檢查感興趣的元素。匯總表有HTML標(biāo)記和CSS類“infobox”和“vevent”,因此可以使用這些來標(biāo)識(shí)HTML中的表格。

用參數(shù)指定它:

find_all()返回符合標(biāo)準(zhǔn)的所有元素列表。為了指定感興趣的元素,需要添加索引[0]。如果函數(shù)執(zhí)行成功,則返回table對(duì)象,否則,返回None。

在使用了自動(dòng)數(shù)據(jù)收集程序的情況下,全面的異常處理是非常重要的。如果沒有,那么在最好的情況下如果腳本崩潰了,數(shù)據(jù)抓取程序需要重新開始執(zhí)行。

在最壞的情況下,你獲得數(shù)據(jù)集將包含不一致性和錯(cuò)誤,這將為你后續(xù)的工作買下隱患。

檢索元數(shù)據(jù)

下一個(gè)函數(shù)使用table對(duì)象來查找一些元數(shù)據(jù)。下面給出在表格中搜索語言第一次出現(xiàn)的年份的代碼。

這個(gè)簡(jiǎn)短的函數(shù)以table對(duì)象作為參數(shù),并調(diào)用BeautifulSoup的get_text()函數(shù)生成一個(gè)字符串。

下一步是創(chuàng)建一個(gè)名為year的子字符串。該字符串存儲(chǔ)了在“appear”這個(gè)詞首次出現(xiàn)之后的30個(gè)字符。這個(gè)字符串應(yīng)該包含語言第一次出現(xiàn)的年份。

為了僅提取年份,使用正則表達(dá)式(通過re模塊)來匹配任何以1到3之間的數(shù)字開頭、并緊鄰三個(gè)數(shù)字的字符串。

如果執(zhí)行成功,函數(shù)將返回一個(gè)整數(shù)的year。否則,我們會(huì)得到“Could not determine”。你可能還想進(jìn)一步挖掘元數(shù)據(jù),例如范例,設(shè)計(jì)者或打字規(guī)律。

收集鏈接

我們還需要一個(gè)函數(shù)–該函數(shù)讀入給定語言的table對(duì)象,輸出一個(gè)包含其他編程語言的列表。

仔細(xì)觀察上面代碼中嵌套部分,到底是怎么回事呢?

這個(gè)函數(shù)利用了table對(duì)象具有結(jié)構(gòu)一致性的事實(shí)。表中的信息存儲(chǔ)在行中(相關(guān)的HTML標(biāo)簽是)。其中一行包含文字“\ nInfluenced \ n”。函數(shù)的第一部分查找這是哪一行。

一旦找到這一行,就可以確定下一行包含了被當(dāng)前行影響的每種編程語言的鏈接。使用find_all(“a”)便可查找這些鏈接 - 其中參數(shù)“a”對(duì)應(yīng)于HTML標(biāo)簽。

對(duì)于每個(gè)鏈接j,將其[“title”]屬性添加到名為out的列表。對(duì)[“title”]屬性感興趣的原因是因?yàn)樗鼘⑼耆ヅ浯鎯?chǔ)在節(jié)點(diǎn)中的語言名稱。

例如,Java作為“Java(編程語言)”存儲(chǔ)在節(jié)點(diǎn)中,因此需要在整個(gè)數(shù)據(jù)集中使用這個(gè)確切的名稱。

如果執(zhí)行成功,getLinks()將返回一組編程語言。該函數(shù)的其余部分進(jìn)行了異常處理,以防程序在某一階段出現(xiàn)問題。

收集數(shù)據(jù)

最后,在一切準(zhǔn)備就緒后執(zhí)行腳本,收集數(shù)據(jù)并將其存儲(chǔ)在兩個(gè)列表對(duì)象中。

現(xiàn)在編寫一個(gè)循環(huán),將先前定義的函數(shù)應(yīng)用于nodes中的每個(gè)詞條,并將輸出存儲(chǔ)在edgeList和meta中。

該函數(shù)使用節(jié)點(diǎn)中的每種語言,并嘗試從維基百科頁面檢索匯總表。

然后,該函數(shù)將檢索表中列出的與目標(biāo)語言所關(guān)聯(lián)的全部語言。

對(duì)于同時(shí)出現(xiàn)在節(jié)點(diǎn)列表中的每種語言,將一個(gè)元素以[“source,target”]的形式添加到edgeList。通過這種方式,建立一個(gè)邊的列表傳給Gephi。

出于調(diào)試的目的,打印添加到edgeList的每個(gè)元素——這樣做僅僅為了確保一切都工作。如果想要更徹底地調(diào)試,也可以添加打印語句到except語句中。

接下來,獲取語言的名稱和年份,并將其添加到元列表中。

寫進(jìn)CSV文件

一旦循環(huán)運(yùn)行,最后一步是將edgeList和meta的內(nèi)容寫入到CSV文件。通過使用前面導(dǎo)入的csv模塊,完成上一步驟就容易多了。

完成了!保存腳本,并從終端運(yùn)行:

$ python3 script.py

當(dāng)構(gòu)建邊列表時(shí),你可以?...

img

在線咨詢

建站在線咨詢

img

微信咨詢

掃一掃添加
動(dòng)力姐姐微信

img
img

TOP