跳轉至主要內容

什麼是大數據 (Big Data)?

主題

分享本頁

大數據分析是檢查大型及各種資料集的程序,可找出隱藏的模式、未知的關聯、市場趨勢、客戶偏好及其他實用資訊,藉此幫助組織做出更明智的業務決策。

在未來幾年,隨著全球商業營收中心大部分集中在數位化或數位增強型的產品和服務上,數位化轉型將會改變組織的面貌,成為多數全球商業的營收中心,並以數位或數位化增強型的產品和服務為主軸。

資料是指由人類或機器所產生,儲存在資料中心或雲端上的結構化或非結構化資料,這些資料是奠定競爭優勢的新基礎。

資料管理資料儲存已成為組織資料策略不可或缺的一環。

大數據的挑戰

IT 主管和分析團隊承受著莫大的壓力,必須以有限的時間、技能和預算,善用現今的大量資料,將其應用於整個組織,以創造嶄新價值。資料遍及資料中心和雲端,日趨分散、動態且多元。這種情況對負責儲存及保護這些資料的基礎架構團隊,還有需要從各種資料來源即時收集及分析資料的資料科學家、工程師和架構設計師都造成了挑戰。由於這種龐大的資料過度擴張問題,分析團隊必須限制所分析的資料範圍,不然就得等待數天才有辦法取得正確的資料進行分析。

大數據技術

一般來說,非結構化和半結構化的資料類型不適合使用傳統資料倉儲,因為這類倉儲是以結構化資料集為導向的關聯式資料庫為基礎。資料倉儲也可能無法因應大型資料集需要頻繁或持續更新而衍生的處理需求。

有鑑於此,許多收集、處理及分析大數據的組織紛紛轉向 NoSQL 資料庫,還有 Hadoop 及其附屬工具,例如:

  • YARN:一種叢集管理技術,也是第二代 Hadoop 的其中一項重要功能
  • MapReduce:一種程式設計模型及相關實作,可在叢集上使用平行分散式演算法來處理及產生大型資料集
  • Apache Spark:一種用於大數據處理的快速通用引擎,內建用於串流、SQL、機器學習和圖表處理的模組
  • HBase:一個開放原始碼、非關聯式的分散型資料庫,以 Google 的 Bigtable 為模型
  • Apache Hive:一個以 Apache Hadoop 為基礎的資料倉儲軟體專案,用於提供資料摘要、查詢及分析
  • Kafka:一個開放原始碼串流處理平台,由 Apache Software Foundation 所開發
  • Pig:一種開放原始碼技術,提供高階機制來並行設定要在 Hadoop 叢集上執行的 MapReduce 作業

大數據分析使用者越來越常採用 Hadoop 資料湖的概念,作為傳入原始資料流的主要儲存庫。在這類架構中,資料可直接在 Hadoop 叢集中進行分析,或是透過 Spark 等處理引擎執行。

大數據生態系統

市場區隔主要廠商
大數據分析 Hadoop / Apache 軟體發佈Cloudera、Hortonworks、MapR
應用程式管理、安全性、法規遵循Splunk
SparkDataBricks
NoSQL 資料庫Aerosplike、Cassandra、Couchbase Server、HBase、MarkLogic、MongoDB、Redis Labs
雲端分析Amazon EMR、Azure HDInsights、Google Cloud Platform
開放原始碼元件Druid、Elasticsearch、Apache Flink、Apache Hive、Apache Kafka、Apache Mesos、Apache Spark、Apache Solr、Apache Hadoop YARN、Apache zookeeper

大數據的優點

在專業分析系統和軟體的推動下,大數據分析可以指引實現各種商業效益的方向,包括新的營收機會、更有效的行銷、更好的客戶服務、更高的營運效率,以及超越對手的競爭優勢。

根據 Datameer 在 2016 年的調查,78% 的企業同意大數據有可能在未來 1 至 3 年內徹底改變其經營模式。

大數據的使用者有哪些?

大數據分析應用程式可讓資料科學家、預測模型者、統計師及其他分析專業人員分析數量不斷增長的結構化交易資料,還有混合的半結構化和非結構化資料,例如網際網路點擊流資料、網路伺服器記錄、社群媒體內容、客戶電子郵件和調查回應內容、行動電話通話詳細資料記錄,以及連線至物聯網 (IoT) 的感知器所擷取的機器資料。

大數據管理與儲存

快速從資料中獲得洞見,對於善用商機、提高利潤、更妥善管理風險至關重要。這需要企業級的資料管理功能,才能處理龐大的資料集。

加速即時機器資料分析,有助於組織事先偵測網路攻擊,進而阻止其造成損害,有效預防詐騙,避免影響客戶體驗。

快速從客戶資料中取得商業情資,對於提升滿意度及引導未來的服務提供方向至關重要。

然而,第一代的大數據分析商用儲存方法(即 DAS 儲存)根本無法有效擴充。而且它無法提供所需的可靠性和靈活度,但這些應用程式是競爭力不可或缺的一環。

共享儲存設備 / 外部儲存設備的大數據分析平台可提供更高的擴充性和效能,能以不中斷營運的方式將資料搬移到所需的地方,並確保資料永遠受到保護,始終安全無虞。

NetApp 與大數據

NetApp 創新的大數據分析平台可提供高達兩倍的效能,將資料和工作負載順暢且安全地移至雲端或任何需要的地方,並確保資料永遠備份、安全且可用。有了 NetApp,您可以提高資源使用率,消除不必要的資料複本,進而將授權費用、硬體成本和整體 TCO 降低高達 50%。