大(dà)數據系統開發,是指伴随著(zhe)大(dà)數據的(de)采集、存儲、分(fēn)析和(hé)應用(yòng)的(de)相關技術,是一系列使用(yòng)非傳統的(de)工具來(lái)對(duì)大(dà)量的(de)結構化(huà)、半結構化(huà)和(hé)非結構化(huà)數據進行處理(lǐ),從而獲得(de)分(fēn)析和(hé)預測結果的(de)一系列數據處理(lǐ)和(hé)分(fēn)析技術。
做(zuò)大(dà)數據系統開發,需要首先了(le)解大(dà)數據的(de)基本處理(lǐ)流程,主要包括數據采集、存儲、分(fēn)析和(hé)結果呈現等環節。數據無處不在,互聯網網站、政務系統、零售系統、辦公系統、自動化(huà)生産系統、監控攝像頭、傳感器等,每時(shí)每刻都在不斷産生數據。這(zhè)些分(fēn)散在各處的(de)數據,需要采用(yòng)相應的(de)設備或軟件進行采集。采集到的(de)數據通(tōng)常無法直接用(yòng)于後續的(de)數據分(fēn)析,因爲對(duì)于來(lái)源衆多(duō)、類型多(duō)樣的(de)數據而言,數據缺失和(hé)語義模糊等問題是不可(kě)避免的(de),因而必須采取相應措施有效解決這(zhè)些問題,這(zhè)就需要一個(gè)被稱爲“數據預處理(lǐ)”的(de)過程,把數據變成一個(gè)可(kě)用(yòng)的(de)狀态。數據經過預處理(lǐ)以後,會被存放到文件系統或數據庫系統中進行存儲與管理(lǐ),然後采用(yòng)數據挖掘工具對(duì)數據進行處理(lǐ)分(fēn)析,最後采用(yòng)可(kě)視化(huà)工具爲用(yòng)戶呈現結果。
在整個(gè)數據處理(lǐ)過程中,還(hái)必須注意隐私保護和(hé)數據安全問題。
因此,從數據分(fēn)析全流程的(de)角度,大(dà)數據技術主要包括數據采集與預處理(lǐ)、數據存儲和(hé)管理(lǐ)、數據處理(lǐ)與分(fēn)析、數據安全和(hé)隐私保護等幾個(gè)層面的(de)内容,具體見圖1。

圖1:大(dà)數據技術的(de)不同層面及其功能
需要指出的(de)是,大(dà)數據系統開發是許多(duō)技術的(de)一個(gè)集合體,這(zhè)些技術也(yě)并非全部都是新生事物(wù),諸如關系數據庫、數據倉庫、數據采集、ETL、OLAP、數據挖掘、數據隐私和(hé)安全、數據可(kě)視化(huà)等技術是已經發展多(duō)年的(de)技術,在大(dà)數據時(shí)代得(de)到不斷補充、完善、提高(gāo)後又有了(le)新的(de)升華,也(yě)可(kě)以視爲大(dà)數據技術的(de)一個(gè)組成部分(fēn)。