分析步驟
大數(shù)據(jù)分析的五個基本方面
1. Analytic Visualizations(可視化分析)
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。[2]
2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。[2]
3. Predictive Analytic Capabilities(預(yù)測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。[2]
4. Semantic Engines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。[2]
5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。[2]
假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。
發(fā)展?fàn)顩r
開源大數(shù)據(jù)
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
一體機(jī)數(shù)據(jù)倉庫
IBM PureData(Netezza), OracleExadata, SAP Hana等等。
這個需要先看您的要求的,從架構(gòu)的大小,設(shè)計的要求,功能的需要,簡單來說就是根據(jù)工作量來定的。具體詳情還是打我們的咨詢電話:0795-7393435 咨詢一下來的實在哈!
*_*我只想說:當(dāng)然是我們宜網(wǎng)絡(luò)好啦!