一、并行運(yùn)算
并行運(yùn)算又稱(chēng)為平行運(yùn)算,顧名思義,此種運(yùn)算一次可以處理多個(gè)工作指令,是相對(duì)于串行運(yùn)算而提出的,目的是提高運(yùn)算速度,解決大型的計(jì)算難題。此外,并行運(yùn)算也是物聯(lián)網(wǎng)建設(shè)必不可少的應(yīng)用技術(shù),為物聯(lián)網(wǎng)內(nèi)部大數(shù)據(jù)的處理提供了有力的技術(shù)支持。并行運(yùn)算分為兩種,一是時(shí)間上的并行,如流水線技術(shù);二是空間上的并行,如多個(gè)CPU同時(shí)進(jìn)行同一運(yùn)算任務(wù)。
并行運(yùn)算的原理就是將問(wèn)題分成若干個(gè)部分,每一部分都由一個(gè)獨(dú)立的CPU處理,進(jìn)行并行運(yùn)算的系統(tǒng)可以是專(zhuān)門(mén)設(shè)計(jì)的多CPU超級(jí)計(jì)算機(jī),也可以是采取某種連接方式,由若干臺(tái)計(jì)算機(jī)組成的集群。時(shí)間上的并行運(yùn)算多應(yīng)用于工廠的設(shè)備,例如,肉類(lèi)加工車(chē)間對(duì)肉類(lèi)的處理步驟一般包括清洗、消毒、切割和封裝。如果只有串行運(yùn)算,那么,一個(gè)食品完成上述步驟后,才會(huì)對(duì)另一個(gè)食品進(jìn)行處理,既浪費(fèi)資源也耗費(fèi)時(shí)間,而采取并行運(yùn)算的設(shè)備就可以同時(shí)對(duì)每一個(gè)食品進(jìn)行上述步驟,大大提高了計(jì)算性能。
空間并行運(yùn)算多用在重復(fù)任務(wù)量巨大的領(lǐng)域,例如,某人被要求種三棵樹(shù),如果只是他一個(gè)人工作,就需要6小時(shí)才能完成,如果他叫來(lái)兩個(gè)幫手同時(shí)工作,則2小時(shí)就能完成任務(wù)??臻g并行就是將一個(gè)大任務(wù)分拆成幾個(gè)小任務(wù)。當(dāng)然,依靠處理器進(jìn)行并行運(yùn)算并沒(méi)有想象的那么簡(jiǎn)單,需要用到五類(lèi)并行機(jī):分布式共享存儲(chǔ)處理機(jī)、工作站機(jī)群、大規(guī)模并行處理機(jī)、對(duì)稱(chēng)多處理機(jī)和并行向量處理機(jī)。
值得一提的是,并行計(jì)算追求的是高速的計(jì)算能力,這依托于昂貴的服務(wù)器,一般情況下,一臺(tái)領(lǐng)先于世界的高端計(jì)算機(jī)如果三年內(nèi)得不到有效利用,它并行運(yùn)算能力就會(huì)落伍。而且并行運(yùn)算的操作相當(dāng)復(fù)雜,非科研人士很難搞清楚里面的指令,所以,并行運(yùn)算只用來(lái)滿足科學(xué)領(lǐng)域的需要,而其衍生物云計(jì)算卻成為了普及度非常高的技術(shù),適用于很多領(lǐng)域,也無(wú)需考慮服務(wù)器的成本。可以這么說(shuō),并行運(yùn)算就像是一臺(tái)沒(méi)有聯(lián)網(wǎng)的高性能電腦,而云計(jì)算就是一臺(tái)聯(lián)網(wǎng)的普通性能電腦,兩者互補(bǔ)不足。
二、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘又稱(chēng)為數(shù)據(jù)采礦,一般是指從海量的數(shù)據(jù)中通過(guò)一定的算法搜索出隱藏的重要信息的過(guò)程。數(shù)據(jù)挖掘和計(jì)算科學(xué)密不可分,并通過(guò)統(tǒng)計(jì)學(xué)、規(guī)則識(shí)別、專(zhuān)家系統(tǒng)、電腦學(xué)習(xí)、情報(bào)檢索和在線分析處理等多種技術(shù)實(shí)現(xiàn)其目標(biāo)。數(shù)據(jù)挖掘的分析方法有六種,分別為分類(lèi)、估計(jì)、預(yù)測(cè)、相關(guān)性分組、聚類(lèi)和復(fù)雜數(shù)據(jù)類(lèi)型挖掘,其系統(tǒng)原型如下圖:
數(shù)據(jù)挖掘的系統(tǒng)原型
數(shù)據(jù)挖掘一般采用關(guān)聯(lián)規(guī)則法,第一階段就是從所有的數(shù)據(jù)集合中找出所有高頻的項(xiàng)目組,第二階段則是由這些高頻項(xiàng)目組生出關(guān)聯(lián)規(guī)則。所謂“高頻”,就是指出現(xiàn)的頻率相對(duì)于整體記錄較多的一組數(shù)據(jù),而一個(gè)項(xiàng)目出現(xiàn)的頻率又稱(chēng)為支持度。例如,有一個(gè)包含a與b兩個(gè)項(xiàng)目的項(xiàng)目組,我們可以由一個(gè)公式得到a、b項(xiàng)目的支持度,若這個(gè)項(xiàng)目組的支持度大于預(yù)定標(biāo)準(zhǔn),則a、b為高頻項(xiàng)目組,又稱(chēng)為高頻K-項(xiàng)目組。在第二階段,利用算法為高頻K-項(xiàng)目組產(chǎn)生規(guī)則,若這一規(guī)則所得到的支持度達(dá)到了最小支持度,則稱(chēng)此規(guī)則為關(guān)聯(lián)規(guī)則。
沃爾瑪超市曾經(jīng)做過(guò)一次關(guān)聯(lián)數(shù)據(jù)挖掘,并預(yù)設(shè)最小支持度為5%,最小信賴(lài)度為70%。在挖掘過(guò)程中,超市的工作人員發(fā)現(xiàn)尿布和啤酒兩類(lèi)商品符合預(yù)設(shè)的關(guān)聯(lián)規(guī)則,也就是說(shuō),尿布、啤酒項(xiàng)目組的支持度大于等于5%,信賴(lài)度大于等于70%。于是可以得出結(jié)論,有5%的交易顯示尿布與啤酒被同時(shí)購(gòu)買(mǎi),而在所有包含尿布的交易中,有70%的交易也包括了買(mǎi)啤酒。這個(gè)結(jié)論暗示超市工作人員,如果超市中有人購(gòu)買(mǎi)尿布,就可以同時(shí)給他推薦啤酒。這就是數(shù)據(jù)挖掘的價(jià)值所在。