你的位置:首頁(yè) > 測(cè)試測(cè)量 > 正文
不懂這25個(gè)名詞,好意思說(shuō)你懂大數(shù)據(jù)?
發(fā)布時(shí)間:2017-10-18 責(zé)任編輯:wenwei
【導(dǎo)讀】如果你剛接觸大數(shù)據(jù),你可能會(huì)覺(jué)得這個(gè)領(lǐng)域很難以理解,無(wú)從下手。近日,Ramesh Dontha在DataConomy上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的75個(gè)核心術(shù)語(yǔ),這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,對(duì)于高階從業(yè)人員也可以起到查漏補(bǔ)缺的作用。
本文先介紹 了25 個(gè)基本大數(shù)據(jù)術(shù)語(yǔ),幫助你溫故知新,那么開(kāi)始吧~
01 算法(Algorithm)
算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過(guò)程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行。
02 分析(Analytics analyze)
讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子,開(kāi)始認(rèn)真研究你在食品、衣物、娛樂(lè)等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來(lái)年自己的消費(fèi)情況作出決定)中挖掘有用的信息。
那么,如果你以類似的方法在推特和臉書上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來(lái)對(duì)它們分別進(jìn)行梳理。
03 描述性分析法(Deive Analytics)
如果你只說(shuō)出自己去年信用卡消費(fèi)情況為:食品方面 25%、衣物方面 35%、娛樂(lè)方面 20%、剩下 20% 為雜項(xiàng)開(kāi)支,那么這種分析方法被稱為描述性分析法。當(dāng)然,你也可以找出更多細(xì)節(jié)。
04 預(yù)測(cè)性分析法(Predictive Analytics)
如果你對(duì)過(guò)去 5 年信用卡消費(fèi)的歷史進(jìn)行了分析,發(fā)現(xiàn)每年的消費(fèi)情況基本上呈現(xiàn)一個(gè)連續(xù)變化的趨勢(shì),那么在這種情況下你就可以高概率預(yù)測(cè)出:來(lái)年的消費(fèi)狀態(tài)應(yīng)該和以往是類似的。這不是說(shuō)我們?cè)陬A(yù)測(cè)未來(lái),而是應(yīng)該理解為,我們?cè)凇赣酶怕暑A(yù)測(cè)」可能發(fā)生什么事情。在大數(shù)據(jù)的預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家可能會(huì)使用先進(jìn)的技術(shù),如機(jī)器學(xué)習(xí),和先進(jìn)的統(tǒng)計(jì)學(xué)處理方法(這部分后面我們會(huì)談到)來(lái)預(yù)測(cè)天氣情況、經(jīng)濟(jì)變化等等。
05 規(guī)范性分析(Preive Analytics)
這里我們還是用信用卡轉(zhuǎn)賬的例子來(lái)理解。假如你想找出自己的哪類消費(fèi)(如食品、娛樂(lè)、衣物等等)可以對(duì)整體消費(fèi)產(chǎn)生巨大影響,那么基于預(yù)測(cè)性分析(Predictive Analytics)的規(guī)范性分析法通過(guò)引入「動(dòng)態(tài)指標(biāo)(action)」(如減少食品或衣物或娛樂(lè))以及對(duì)由此產(chǎn)生的結(jié)果進(jìn)行分析來(lái)規(guī)定一個(gè)可以降低你整體開(kāi)銷的最佳消費(fèi)項(xiàng)。你可以將它延伸到大數(shù)據(jù)領(lǐng)域,并想象一個(gè)負(fù)責(zé)人是如何通過(guò)觀察他面前多種動(dòng)態(tài)指標(biāo)的影響,進(jìn)而作出所謂由「數(shù)據(jù)驅(qū)動(dòng)」的決策的。
06 批處理(Batch processing)
盡管批量數(shù)據(jù)處理從大型機(jī)(mainframe)時(shí)代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時(shí)代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時(shí)間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計(jì)算(Hadoop),后面會(huì)討論,就是一種專門處理批量數(shù)據(jù)的方法。
07 Cassandra
是一個(gè)很流行的開(kāi)源數(shù)據(jù)管理系統(tǒng),由Apache Software Foundation 開(kāi)發(fā)并運(yùn)營(yíng)。Apache掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra就是他們專門設(shè)計(jì)用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。
08 云計(jì)算(Cloud computing)
雖然云計(jì)算這個(gè)詞現(xiàn)在已經(jīng)家喻戶曉,這里大可不必贅述,但是為了全篇內(nèi)容完整性的考慮,筆者還是在這里加入了云計(jì)算詞條。本質(zhì)上講,軟件或數(shù)據(jù)在遠(yuǎn)程服務(wù)器上進(jìn)行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問(wèn),那么它就可被稱為云計(jì)算。
09 集群計(jì)算(Cluster computing)
這是一個(gè)來(lái)描述使用多個(gè)服務(wù)器豐富資源的一個(gè)集群(cluster)的計(jì)算的形象化術(shù)語(yǔ)。更技術(shù)層面的理解是,在集群處理的語(yǔ)境下,我們可能會(huì)討論節(jié)點(diǎn)(node)、集群管理層(cluster management layer)、負(fù)載平衡(load balancing)和并行處理(parallel processing)等等。
10 暗數(shù)據(jù)(Dark data)
這是一個(gè)生造詞,在筆者看來(lái),它是用來(lái)嚇唬人,讓高級(jí)管理聽(tīng)上去晦澀難懂的?;径?,所謂暗數(shù)據(jù)指的是,那些公司積累和處理的實(shí)際上完全用不到的所有數(shù)據(jù),從這個(gè)意義上來(lái)說(shuō)我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會(huì)被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會(huì)議記錄等等。很多估計(jì)認(rèn)為所有公司的數(shù)據(jù)中有60%到90%不等可能是暗數(shù)據(jù),但實(shí)際上沒(méi)人知道。
11 數(shù)據(jù)湖(Data lake)
當(dāng)筆者第一次聽(tīng)到這個(gè)詞時(shí),真的以為這是個(gè)愚人節(jié)笑話。但是它真的是一個(gè)術(shù)語(yǔ)。所以一個(gè)數(shù)據(jù)湖(data lake)即一個(gè)以大量原始格式保存了公司級(jí)別的數(shù)據(jù)知識(shí)庫(kù)。這里我們介紹一下數(shù)據(jù)倉(cāng)庫(kù)(Data warehouse)。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過(guò)清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認(rèn)為,一個(gè)數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。
12 數(shù)據(jù)挖掘(Data mining)
數(shù)據(jù)挖掘關(guān)乎如下過(guò)程,從一大群數(shù)據(jù)中以復(fù)雜的模式識(shí)別技巧找出有意義的模式,并且得到相關(guān)洞見(jiàn)。它與前文所述的「分析」息息相關(guān),在數(shù)據(jù)挖掘中,你將會(huì)先對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)這些得到的結(jié)果進(jìn)行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會(huì)使用到統(tǒng)計(jì)學(xué)(一種經(jīng)典的舊方法)、機(jī)器學(xué)習(xí)算法和人工智能。
13 數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是時(shí)下非常性感的一門行業(yè)。它指那些可以通過(guò)提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進(jìn)而理解、處理并得出洞見(jiàn)的這樣一批人。部分?jǐn)?shù)據(jù)科學(xué)家必備的技能可以說(shuō)只有超人才有:分析能力、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。
14 分布式文件系統(tǒng)(Distributed File System)
大數(shù)據(jù)數(shù)量太大,不能存儲(chǔ)在一個(gè)單獨(dú)的系統(tǒng)中,分布式文件系統(tǒng)是一個(gè)能夠把大量數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)設(shè)備上的文件系統(tǒng),它能夠減少存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜度。
15 ETL
ETL代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過(guò)程:「提取」原始數(shù)據(jù),通過(guò)清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫(kù)中供系統(tǒng)使用。即使ETL源自數(shù)據(jù)倉(cāng)庫(kù),但是這個(gè)過(guò)程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。
16 Hadoop
當(dāng)人們思考大數(shù)據(jù)的時(shí)候,他們會(huì)立即想到Hadoop。Hadoop是一個(gè)開(kāi)源軟件架構(gòu)(logo是一頭可愛(ài)的大象),它由 Hadoop分布式文件系統(tǒng)(HDFS)構(gòu)成,它允許使用分布式硬件對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、抽象和分析。如果你真的想讓某人對(duì)這個(gè)東西印象深刻,你可以跟他說(shuō) YARN(Yet Another Resource Scheduler),顧名思義,就是另一個(gè)資源調(diào)度器。我確實(shí)被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會(huì),還負(fù)責(zé) Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒(méi)有被這些名字驚艷到嗎?
17 內(nèi)存計(jì)算(In-memory computing)
通常認(rèn)為,任何不涉及到 I/O訪問(wèn)的計(jì)算都會(huì)更快一些。內(nèi)存計(jì)算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動(dòng)到集群的集體內(nèi)存中,避免了在計(jì)算過(guò)程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個(gè)內(nèi)存計(jì)算的系統(tǒng),它相對(duì) Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢(shì)。
18 物聯(lián)網(wǎng)(IoT)
最新的流行語(yǔ)就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對(duì)象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計(jì)算設(shè)備通過(guò)英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來(lái)了很多大數(shù)據(jù)分析的機(jī)遇。
19 機(jī)器學(xué)習(xí)(Machine Learning)
機(jī)器學(xué)習(xí)是基于喂入的數(shù)據(jù)去設(shè)計(jì)能夠?qū)W習(xí)、調(diào)整和提升的系統(tǒng)的一種方法。使用設(shè)定的預(yù)測(cè)和統(tǒng)計(jì)算法,它們持續(xù)地逼近「正確的」行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進(jìn)一步提升。
20 MapReduce
MapReduce可能有點(diǎn)難以理解,我試著解釋一下吧。MapReduce是一個(gè)編程模型,最好的理解就是要注意到Map和Reduce是兩個(gè)不同的過(guò)程。在 MapReduce中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術(shù)術(shù)語(yǔ)來(lái)講叫做「元組」,但是我描述的時(shí)候會(huì)盡量避免晦澀的技術(shù)術(shù)語(yǔ)),然后這些小塊會(huì)被分發(fā)給不同位置上的不同計(jì)算機(jī)(也就是說(shuō)之前描述過(guò)的集群),這在Map過(guò)程是必須的。然后模型會(huì)收集每個(gè)計(jì)算結(jié)果,并且將它們「reduce」成一個(gè)部分。MapReduce的數(shù)據(jù)處理模型和Hadoop分布式文件系統(tǒng)是分不開(kāi)的。
21 非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)
這個(gè)詞聽(tīng)起來(lái)幾乎就是「SQL,結(jié)構(gòu)化查詢語(yǔ)言」的反義詞,SQL 是傳統(tǒng)的關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實(shí)際上指的是「不止SQL」。
NoSQL實(shí)際上指的是那些被設(shè)計(jì)來(lái)處理沒(méi)有結(jié)構(gòu)(或者沒(méi)有「schema」,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。
NoSQL 適合大數(shù)據(jù)系統(tǒng),因?yàn)榇笠?guī)模的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)需要 NoSQL的這種靈活性和分布式優(yōu)先的特點(diǎn)。
22 R語(yǔ)言
這還有人能給一個(gè)編程語(yǔ)言起一個(gè)更加糟糕的名字嗎?R 語(yǔ)言就是這樣的語(yǔ)言。不過(guò),R 語(yǔ)言是一個(gè)在統(tǒng)計(jì)工作中工作得很好的語(yǔ)言。如果你不知道 R 語(yǔ)言,別說(shuō)你是數(shù)據(jù)科學(xué)家。因?yàn)?R 語(yǔ)言是數(shù)據(jù)科學(xué)中最流行的編程語(yǔ)言之一。
23 Spark(Apache Spark)
Apache Spark 是一個(gè)快速的內(nèi)存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問(wèn)數(shù)據(jù)庫(kù)的流處理、機(jī)器學(xué)習(xí)以及SQL負(fù)載。Spark通常會(huì)比我們前面討論過(guò)的MapReduce 快好多。
24 流處理(Stream processing)
流處理被設(shè)計(jì)來(lái)用于持續(xù)地進(jìn)行流數(shù)據(jù)的處理。與流分析技術(shù)(指的是能夠持續(xù)地計(jì)算數(shù)值和統(tǒng)計(jì)分析的能力)結(jié)合起來(lái),流處理方法特別能夠針對(duì)大規(guī)模數(shù)據(jù)的實(shí)時(shí)處理。
25 結(jié)構(gòu)化vs非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data)
這是大數(shù)據(jù)中的對(duì)比之一。結(jié)構(gòu)化數(shù)據(jù)基本上是那些能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過(guò)表格來(lái)關(guān)聯(lián)。非結(jié)構(gòu)化數(shù)據(jù)是指任何不能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語(yǔ)音等等。
推薦閱讀:
特別推薦
- 協(xié)同創(chuàng)新,助汽車行業(yè)邁向電氣化、自動(dòng)化和互聯(lián)化的未來(lái)
- 功率器件熱設(shè)計(jì)基礎(chǔ)(八)——利用瞬態(tài)熱阻計(jì)算二極管浪涌電流
- 用于模擬傳感器的回路供電(兩線)發(fā)射器
- 應(yīng)用于體外除顫器中的電容器
- 將“微型FPGA”集成到8位MCU,是種什么樣的體驗(yàn)?
- 能源、清潔科技和可持續(xù)發(fā)展的未來(lái)
- 博瑞集信推出高增益、內(nèi)匹配、單電源供電 | S、C波段驅(qū)動(dòng)放大器系列
技術(shù)文章更多>>
- 探索工業(yè)應(yīng)用中邊緣連接的未來(lái)
- 解構(gòu)數(shù)字化轉(zhuǎn)型:從策略到執(zhí)行的全面思考
- 意法半導(dǎo)體基金會(huì):通過(guò)數(shù)字統(tǒng)一計(jì)劃彌合數(shù)字鴻溝
- 使用手持頻譜儀搭配高級(jí)軟件:精準(zhǔn)捕獲隱匿射頻信號(hào)
- 為什么超大規(guī)模數(shù)據(jù)中心要選用SiC MOSFET?
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
無(wú)線充電
無(wú)線監(jiān)控
無(wú)源濾波器
五金工具
物聯(lián)網(wǎng)
顯示模塊
顯微鏡結(jié)構(gòu)
線圈
線繞電位器
線繞電阻
線束
限位開(kāi)關(guān)
陷波器
相變存儲(chǔ)器
消弧線圈
肖特基二極管
心率監(jiān)測(cè)儀
欣達(dá)旺
新唐科技
信號(hào)發(fā)生器
信號(hào)繼電器
行程開(kāi)關(guān)
修復(fù)設(shè)備
蓄電池
旋轉(zhuǎn)開(kāi)關(guān)
血壓計(jì)
血氧儀
壓電蜂鳴器
壓接連接器
壓控振蕩器