菜单

什么是大数据?

立方体

大数据分析是指检查各种大型数据集以发现隐藏模式,未知核心关系,市场趋势,客户偏好以及其他有用信息的过程,这些信息可帮助组织做出更明智的业务决策。

未来几年 ,数字化转型 将重塑企业,因为全球业务收入的大部分集中在数字化或数字化增强型产品和服务上。

无论是人工还是机器产生的结构化或非结构化数据,也不管是存储在数据中心还是云端,数据都将成为取得竞争优势的新基础。

数据管理数据存储 是企业数据战略不可或缺的组成部分。

大数据挑战

IT 主管和分析团队面临着巨大的压力,他们需要利用当今的大量数据,并利用这些数据在整个企业内创造新的价值,而这些数据的时间,技能和预算都是有限的。数据在数据中心和云之间变得越来越分散,动态化和多样化。这种情况不仅给负责存储和保护此类数据的基础架构团队带来了挑战,也给需要从各种数据源实时收集和分析数据的数据科学家,工程师和架构师带来了挑战。由于这一巨大的数据无序增长问题,分析团队需要限制要分析的数据的范围,或者等待数天,才能将正确的数据提供给分析团队。

大数据技术

非结构化 和半结构化数据类型通常不适合传统数据仓库,因为传统数据仓库基于面向结构化数据集的关系数据库。数据仓库也可能无法处理需要频繁或持续更新的一组大数据所带来的处理需求。

因此,许多收集,处理和分析大数据的组织都会使用 NoSQL 数据库以及 Hadoop 及其配套工具,例如:

  • YARN一种集群管理技术和一项关键功能 在第二代 Hadoop 中
  • MapReduce 。一种编程模型以及一种相关实施,用于在集群上使用并行分布式算法处理和生成大数据集
  • Apache Spark 。一种快速通用的大数据处理引擎,内置了流式传输, SQL ,机器学习和图形处理模块
  • HBase 。一种基于 Google 的 Bigtable 建模的开源非关系分布式数据库
  • Apache Hive 。一个基于 Apache Hadoop 构建的数据仓库软件项目,用于提供数据总结,查询和分析
  • Kafka 。由 Apache Software 开发的开源流处理平台 基础
  • PIG 。一种开源技术,可为提供高级别的机制 对要在 Hadoop 上执行的 MapReduce 作业进行并行编程 集群


大数据分析用户越来越频繁地采用 Hadoop 数据湖的概念,该数据湖是传入原始数据流的主存储库。在这种架构中,可以直接在 Hadoop 集群中分析数据,也可以通过 Spark 等处理引擎运行数据。

大数据生态系统

细分市场 主要供应商
大数据分析 Hadoop/Apache 软件分发版 Cloudera , HortonWorks , MapR
应用程序管理,安全性,合规性 Splunk
激发 DataBricks
NoSQL 数据库 Aerospike , Cassandra , Couchbase Server , HBase , MarkLogic , MongoDB , Redis 实验室
云分析 Amazon EMR , Azure HDInsights , Google Cloud Platform
开源组件 Druid , Elasticsearch , Apache Flink , Apache Hive , Apache Kafka , Apache Mesos , Apache Spark , Apache Solr , Apache Hadoop Yarn , Apache zookeeper

大数据的优势

在专业分析系统和软件的推动下,大数据分析可以为各种业务优势提供方向,包括新的创收机会,更有效的营销,更好的客户服务,更高的运营效率以及与竞争对手相比的竞争优势。

据 Datameer 2016 年的一项调查显示, 78% 的企业都认为大数据有可能在未来 1 到 3 年从根本上改变他们的业务方式。

谁在使用大数据?

大数据分析应用程序支持数据科学家,预测模型师,统计人员, 和其他分析专业人员分析不断增长的结构化事务数据,以及半结构化和非结构化数据的组合,例如互联网点击流数据, Web 服务器日志,社交媒体内容,客户电子邮件和调查回复中的文本,移动电话详细信息记录, 以及通过连接到物联网( IoT )的传感器捕获的机器数据

大数据和对象存储

数据中快速获得洞察力对于抓住商机,提高利润和更好地管理风险至关重要。这种能力需要企业级数据管理功能来处理庞大的数据集。

加快实时计算机数据分析速度有助于企业在网络攻击造成损坏之前检测到这些攻击,并在不影响客户体验的情况下防止欺诈。

从客户数据中快速获得业务智能对于提高满意度和指导未来服务产品至关重要。

但是,第一代大数据分析商用存储方法(即 DAS 存储)根本无法高效扩展。而且,由于这些应用程序对竞争力至关重要,因此无法提供所需的可靠性和灵活性。

共享存储 / 外部存储大数据分析平台可提高可扩展性和性能,无中断地将数据移动到所需位置,并确保数据始终受到保护和安全。

NetApp 和大数据

NetApp 的创新型大数据分析平台可提供高达两倍的性能,无缝,安全地将数据和工作负载迁移到云或任何需要的地方,并确保数据始终备份,安全且可用。借助 NetApp ,您可以通过提高资源利用率并消除不必要的数据副本,将许可证费用,硬件成本和总体 TCO 降低多达 50% 。

继续阅读