狠狠操夜夜甜|人妻在线中文字幕亚洲无码不卡av|一区二区欧美亚洲|日躁夜躁狠狠躁2001|亚洲,超碰,欧美|18AV成人电影|午夜成人免费在线|婷婷激情网深爱五月|色欲综合成人在线|在线美女搞黄大片

中企動(dòng)力 > 頭條 > 統(tǒng)計(jì)學(xué)跟數(shù)據(jù)分析

網(wǎng)站性能檢測(cè)評(píng)分

注:本網(wǎng)站頁面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。

統(tǒng)計(jì)學(xué)跟數(shù)據(jù)分析

數(shù)據(jù)分析:統(tǒng)計(jì)學(xué)方法在數(shù)據(jù)挖掘中的應(yīng)用探究,看完長(zhǎng)見識(shí)了! 企業(yè)視頻課程

img

凌亂,

關(guān)注

統(tǒng)計(jì)學(xué)方法在數(shù)據(jù)挖掘中的應(yīng)用探究

數(shù)據(jù)挖掘就是指從眾多實(shí)際應(yīng)用數(shù)據(jù)中獲取批量大、有噪聲、且隨機(jī)性強(qiáng)的數(shù)據(jù),將潛在的信息與數(shù)據(jù)提取出來,就是從數(shù)據(jù)中挖掘有價(jià)值的知識(shí),而大多數(shù)原始數(shù)據(jù)具有一定的結(jié)構(gòu)化特征,比如,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以通過文本、圖形、圖像等半結(jié)構(gòu)化發(fā)掘有用知識(shí),這些知識(shí)可以是數(shù)學(xué)的也可以是非數(shù)學(xué)形式的;數(shù)據(jù)挖掘能以歸納形式存在,能夠被廣泛應(yīng)用到信息查詢、信息管理、信息決策控制中,方便數(shù)據(jù)的維護(hù)與管理。由此可見,數(shù)據(jù)挖掘是一門交叉性強(qiáng)的學(xué)科,加強(qiáng)對(duì)其的研究非常有意義,下面將對(duì)統(tǒng)計(jì)方法在數(shù)據(jù)挖掘中的具體應(yīng)用進(jìn)行分析。 

 一、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系  (一)數(shù)據(jù)挖掘的內(nèi)涵  通常來說,數(shù)據(jù)挖掘的定義較為模糊,沒有明確界定,大部分對(duì)其的定義只是停留在其背景與觀點(diǎn)的內(nèi)容上。通過對(duì)不同觀點(diǎn)的統(tǒng)一整理,人們最終將其描述為:從大量多樣化的信息中發(fā)現(xiàn)隱晦性、規(guī)律性等潛在信息,并對(duì)這些信息進(jìn)行創(chuàng)造、加工的過程。數(shù)據(jù)挖掘作為一門重要的交叉學(xué)科,能夠?qū)?shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等眾多的科學(xué)融入到一起,從而實(shí)現(xiàn)技術(shù)與理論的創(chuàng)新與發(fā)展[1]。其中,數(shù)據(jù)庫、人工智能與統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘當(dāng)中的三大支柱理論。數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫當(dāng)中發(fā)掘各種隱含的知識(shí)與信息,此過程的方法非常多,有統(tǒng)計(jì)學(xué)知識(shí)、遺傳算法、粗集方法、決策法、模糊邏輯法等,還可以應(yīng)用向鄰近的可視技術(shù)、模式識(shí)別技術(shù)等,在以上所有技術(shù)的支持上能夠使數(shù)據(jù)挖掘更為科學(xué)、有序?! 。ǘ?shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)間的關(guān)系  通常來說,統(tǒng)計(jì)學(xué)的主要功能是對(duì)統(tǒng)計(jì)原理與統(tǒng)計(jì)方法進(jìn)行研究的科學(xué)。具體來說就是指對(duì)數(shù)字資料進(jìn)行的收集、整理、排序、分析、利用的過程,數(shù)字資料是各種信息的歸納與總結(jié),可以將其作為特性原理的認(rèn)知、推理方法[2]。而統(tǒng)計(jì)學(xué)則表示的是使用專業(yè)的統(tǒng)計(jì)學(xué)、概率理論原理等對(duì)各種屬性關(guān)系的統(tǒng)計(jì)與分析過程,通過分析成功找到屬性間的關(guān)聯(lián)與發(fā)展的規(guī)律。在此過程中,統(tǒng)計(jì)分析方法是數(shù)據(jù)挖掘最為重要的手段之一。

  在數(shù)據(jù)挖掘這一課題被提出來之前,統(tǒng)計(jì)分析技術(shù)對(duì)于人們來說更熟悉,也是人們?nèi)粘i_展工作、尋找數(shù)據(jù)間規(guī)律最常使用的收集整理方法。但是不能簡(jiǎn)單的將數(shù)據(jù)挖掘作為統(tǒng)計(jì)學(xué)的延伸與替代工具,而是要將兩者的區(qū)別認(rèn)識(shí)到位,再結(jié)合兩者間的不同特點(diǎn)分析其應(yīng)用特點(diǎn)[3]。大部分的統(tǒng)計(jì)學(xué)分析技術(shù)都是建立在數(shù)學(xué)理論與技巧上的,預(yù)測(cè)通常較為準(zhǔn)確,效果能夠讓大部分人滿意。數(shù)據(jù)挖掘能夠充分借鑒并吸收統(tǒng)計(jì)學(xué)技術(shù),在融入到自身特點(diǎn)以后成為一種數(shù)據(jù)挖掘技術(shù)?! 〗y(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘存在的目標(biāo)都是一致的,就是不斷對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行發(fā)掘。鑒于統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘在目標(biāo)上的一致性,致使很多研究學(xué)者與專家將數(shù)據(jù)挖掘作為了統(tǒng)計(jì)學(xué)的一個(gè)分支機(jī)構(gòu)[4]。但是這種認(rèn)知非常不正確,因?yàn)閿?shù)據(jù)挖掘不僅體現(xiàn)在與統(tǒng)計(jì)學(xué)的關(guān)系上還體現(xiàn)在思想、工具與方法上,尤其是在計(jì)算機(jī)科學(xué)領(lǐng)域?qū)?shù)據(jù)挖掘起到的作用非常大。比如,通過借助數(shù)據(jù)庫技術(shù)與人工智能的學(xué)習(xí),能夠關(guān)注到更多統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘上的共通點(diǎn),但是兩者存在的差異依然非常大。數(shù)據(jù)挖掘就是指對(duì)大量的數(shù)據(jù)信息不斷挖掘的過程,DM能夠?qū)?shù)據(jù)模式內(nèi)的數(shù)據(jù)關(guān)系進(jìn)行充分挖掘,并對(duì)觀測(cè)到的數(shù)據(jù)庫處理有著極高的關(guān)注度?! 《?shù)據(jù)挖掘的主要過程  從數(shù)據(jù)本身出發(fā)探討數(shù)據(jù)挖掘過程,數(shù)據(jù)挖掘的過程分為信息的收集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┑冗^程。

 

 首先,要將業(yè)務(wù)對(duì)象確定下來,明確不同業(yè)務(wù)定義,并認(rèn)清數(shù)據(jù)挖掘的目的,這是做好數(shù)據(jù)挖掘最關(guān)鍵的一步,也是最重要的一步,雖然挖掘的結(jié)果不能被準(zhǔn)確預(yù)測(cè)到,但卻需要對(duì)問題的可預(yù)見性進(jìn)行探索[5]。其次,還要做好數(shù)據(jù)準(zhǔn)備工作,包含數(shù)據(jù)清理、數(shù)據(jù)變換等工作,數(shù)據(jù)清理的實(shí)際意義是將噪聲與空缺值補(bǔ)全,針對(duì)這一問題,可以使用平滑技術(shù),而空缺值的處理則是屬性中最常見的,可以將統(tǒng)計(jì)中最可能出現(xiàn)的值作為一個(gè)空缺值[6]?! ⌒畔⑹占傅氖前凑仗囟ǖ臄?shù)據(jù)分析對(duì)象,可以將分析中需要的特征信息抽象出來,并在此基礎(chǔ)上選擇出較為科學(xué)、適合的信息收集方法,將全部的信息全部錄入到特定的數(shù)據(jù)庫中。如果數(shù)據(jù)量較大,則可以選擇一個(gè)專門的管理數(shù)據(jù)的倉庫,實(shí)現(xiàn)對(duì)信息的有效保護(hù)與管理;數(shù)據(jù)集成就是指將來源不同、格式不同、性質(zhì)不同、特點(diǎn)不同的數(shù)據(jù)集成到一起,進(jìn)而為企業(yè)提供更為全面、系統(tǒng)的數(shù)據(jù)共享平臺(tái);數(shù)據(jù)變換就是通過聚集、概化、規(guī)范化等方式對(duì)數(shù)據(jù)進(jìn)行挖掘,對(duì)于一些實(shí)用數(shù)據(jù),則可以通過分層與分離方式實(shí)現(xiàn)對(duì)數(shù)據(jù)的轉(zhuǎn)換;數(shù)據(jù)挖掘就是結(jié)合數(shù)據(jù)倉庫中的數(shù)據(jù)信息點(diǎn),并選擇正確的分析方法實(shí)現(xiàn)對(duì)有價(jià)值數(shù)據(jù)的挖掘,事例推理、規(guī)則推理、遺傳算法等都是應(yīng)用較多的方法[7]。  三、統(tǒng)計(jì)學(xué)方法中的聚類分析  在統(tǒng)計(jì)學(xué)聚類方法基礎(chǔ)上能夠構(gòu)建出潛在的概率分布假設(shè),可以使用試圖優(yōu)化的方法構(gòu)建數(shù)據(jù)與統(tǒng)計(jì)模型的擬合效果?;诮y(tǒng)計(jì)學(xué)聚類方法當(dāng)中,Cobweb方法是在1987年由Fisher提出的,能夠以分類樹作為層次聚類創(chuàng)建的方法,在分類樹上,每一個(gè)節(jié)點(diǎn)都能代表著一個(gè)概念,該方法就是對(duì)節(jié)點(diǎn)概率描述的過程。Cobweb方法還使用了啟發(fā)式估算方式,使用分類效用對(duì)分類樹的構(gòu)建進(jìn)行指導(dǎo),從而實(shí)現(xiàn)對(duì)最高分類的劃分目的,能夠?qū)⒉煌诸悓?duì)象全部歸類到一個(gè)類別中,并依據(jù)這些內(nèi)容創(chuàng)建出一個(gè)新的類別。但是這種方法也存在一定局限性,局限性在于假設(shè)的屬性概率分布都是獨(dú)立的,并不能始終處于成立狀態(tài)中。

img

在線咨詢

建站在線咨詢

img

微信咨詢

掃一掃添加
動(dòng)力姐姐微信

img
img

TOP