大數(shù)據(jù)系統(tǒng)開發(fā),是指伴隨著大數(shù)據(jù)的采集、存儲、分析和應用的相關技術,是一系列使用非傳統(tǒng)的工具來對大量的結構化、半結構化和非結構化數(shù)據(jù)進行處理,從而獲得分析和預測結果的一系列數(shù)據(jù)處理和分析技術。
做大數(shù)據(jù)系統(tǒng)開發(fā),需要首先了解大數(shù)據(jù)的基本處理流程,主要包括數(shù)據(jù)采集、存儲、分析和結果呈現(xiàn)等環(huán)節(jié)。數(shù)據(jù)無處不在,互聯(lián)網(wǎng)網(wǎng)站、政務系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產系統(tǒng)、監(jiān)控攝像頭、傳感器等,每時每刻都在不斷產生數(shù)據(jù)。這些分散在各處的數(shù)據(jù),需要采用相應的設備或軟件進行采集。采集到的數(shù)據(jù)通常無法直接用于后續(xù)的數(shù)據(jù)分析,因為對于來源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語義模糊等問題是不可避免的,因而必須采取相應措施有效解決這些問題,這就需要一個被稱為“數(shù)據(jù)預處理”的過程,把數(shù)據(jù)變成一個可用的狀態(tài)。數(shù)據(jù)經(jīng)過預處理以后,會被存放到文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中進行存儲與管理,然后采用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行處理分析,最后采用可視化工具為用戶呈現(xiàn)結果。
在整個數(shù)據(jù)處理過程中,還必須注意隱私保護和數(shù)據(jù)安全問題。
因此,從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術主要包括數(shù)據(jù)采集與預處理、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護等幾個層面的內容,具體見圖1。

圖1:大數(shù)據(jù)技術的不同層面及其功能
需要指出的是,大數(shù)據(jù)系統(tǒng)開發(fā)是許多技術的一個集合體,這些技術也并非全部都是新生事物,諸如關系數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)采集、ETL、OLAP、數(shù)據(jù)挖掘、數(shù)據(jù)隱私和安全、數(shù)據(jù)可視化等技術是已經(jīng)發(fā)展多年的技術,在大數(shù)據(jù)時代得到不斷補充、完善、提高后又有了新的升華,也可以視為大數(shù)據(jù)技術的一個組成部分。