Menú

¿Qué es el Big Data?

cubos

Big Data Analytics es el proceso de examinar conjuntos de datos grandes y variados para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias de clientes y otra información útil que puede ayudar a las organizaciones a tomar decisiones empresariales mejor informadas.

En los próximos años, la transformación digital remodelará a las organizaciones como la mayoría de los ingresos empresariales globales se centrarán en productos y servicios digitales o mejorados digitalmente.

Los datos, tanto estructurados como no estructurados, generados por humanos o por máquinas, almacenados en el centro de datos o en el cloud, son la nueva base de la ventaja competitiva.

La gestión de datos y el almacenamiento de datos son parte integrante de la estrategia de datos de una organización.

Retos de Big Data

Los líderes de TI y los equipos de análisis están bajo una enorme presión para aprovechar la gran cantidad de datos de hoy y aplicarlos para crear un nuevo valor en toda la organización, todo ello con un tiempo, habilidades y presupuesto limitados. Los datos se están distribuyendo, siendo dinámicos y diversos en los centros de datos y en el cloud. Esta situación plantea retos no sólo para los equipos de infraestructura responsables del almacenamiento y la protección de estos datos, sino también para los científicos, ingenieros y arquitectos de datos, que necesitan recopilar y analizar los datos en tiempo real desde diversas fuentes de datos. Debido a este gran problema de proliferación de datos, se pide a los equipos de análisis que limiten el alcance de los datos que se están analizando o que esperen días antes de que los datos adecuados puedan estar disponibles para su análisis.

Tecnologías de Big Data

Los tipos de datos no estructurados y semiestructurados normalmente no encajan bien en los almacenes de datos tradicionales, que se basan en bases de datos relacionales orientadas a conjuntos de datos estructurados. Es posible que los almacenes de datos tampoco puedan gestionar las demandas de procesamiento planteadas por conjuntos de datos grandes que deben actualizarse con frecuencia o de forma continua.

Como resultado, muchas organizaciones que recopilan, procesan y analizan grandes datos recurren a bases de datos NoSQL, así como a Hadoop y sus herramientas como:

  • YARN Una tecnología de gestión de clústeres y una de las funciones clave En Hadoop de segunda generación
  • MapReduce Un modelo de programación y una implementación asociada para procesar y generar grandes conjuntos de datos con un algoritmo paralelo y distribuido en un clúster
  • Apache Spark. Un motor rápido y general para el procesamiento de grandes datos, con módulos integrados para streaming, SQL, aprendizaje de máquina y procesamiento de gráficos
  • HBase. Una base de datos distribuida de código abierto, no relacional y basada en el modelo Bigtable de Google
  • Apache Hive. Un proyecto de software de almacén de datos creado sobre Apache Hadoop para proporcionar resumen de datos, consultas y análisis
  • Kafka. Una plataforma de procesamiento de flujos de código abierto desarrollada por Apache Software Fundación
  • Cerdo. Una tecnología de código abierto que ofrece un mecanismo de alto nivel para el Programación paralela de trabajos de MapReduce que se ejecutarán en Hadoop Clústeres


Cada vez con más frecuencia, los usuarios de análisis de grandes datos están adoptando el concepto de un lago de datos Hadoop que sirve de repositorio principal para flujos entrantes de datos sin formato. En estas arquitecturas, los datos se pueden analizar directamente en un clúster de Hadoop o ejecutarse a través de un motor de procesamiento como Spark.

Ecosistema de grandes datos

Segmento Proveedores clave
Análisis de Big Data Hadoop/Distribuciones de software Apache Cloudera, HortonWorks, TAE
Gestión de aplicaciones, seguridad y cumplimiento de normativas Splunk
Spark DataBricks
Bases de datos No SQL Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs
Análsis en el cloud Amazon EMR, Azure HDInsights, Google Cloud Platform
Componentes de código abierto Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Ventajas de Big Data

Impulsado por sistemas de análisis y software especializados, los análisis de grandes datos pueden apuntar a diversos beneficios empresariales, incluidas nuevas oportunidades de ingresos, una comercialización más eficaz, un mejor servicio al cliente, una eficiencia operativa mejorada y ventajas competitivas frente a los rivales.

Según una encuesta realizada por Datameer en 2016, el 78% de las empresas están de acuerdo en que los grandes datos tienen el potencial de cambiar fundamentalmente la forma de hacer negocios en los próximos 1 a 3 años.

¿Quién utiliza Big Data?

Las aplicaciones de análisis de datos grandes permiten a los científicos de datos, los modeladores predictivos, los estadísticos, Y otros profesionales de análisis para analizar volúmenes crecientes de datos de transacciones estructuradas, además de una combinación de datos semiestructurados y no estructurados, como datos de Internet clickstream, registros de servidores web, contenido de medios sociales, texto de correos electrónicos de clientes y respuestas a encuestas, registros de detalles de llamadas de teléfonos móviles, Y datos de máquina capturados por sensores conectados aInternet de las cosas (IoT).

Almacenamiento y gestión de Big Data

Obtener rápidamente información de los datoses crucial para aprovechar las oportunidades, mejorar los beneficios y gestionar mejor los riesgos. Esta capacidad requiere funcionalidades de gestión de datos de nivel empresarial para poder hacer frente a los amplios conjuntos de datos.

La aceleración del análisis de datos de máquinas en tiempo real ayuda a las organizaciones a detectar los ciberataques antes de que causen daños y a evitar el fraude sin afectar a la experiencia del cliente.

La obtención rápida de inteligencia empresarial a partir de los datos de los clientes es esencial para mejorar los niveles de satisfacción y guiar las futuras ofertas de servicios.

Sin embargo, el enfoque de almacenamiento de productos básicos de análisis de datos grandes de primera generación (es decir, almacenamiento DAS) simplemente no se escala de forma eficiente. Y no proporciona la fiabilidad y la flexibilidad necesarias a medida que estas aplicaciones se vuelven esenciales para la competitividad.

Las plataformas de análisis de grandes datos de almacenamiento compartido/almacenamiento externo ofrecen más escalabilidad y rendimiento, trasladando datos sin interrupciones donde sea necesario y asegurándose de que siempre esté protegido y seguro.

NetApp y Big Data

La innovadora plataforma de análisis de big data de NetAppofrece hasta el doble de rendimiento, mueve datos y cargas de trabajo de forma segura y sin problemas al cloud o donde sea necesario y se asegura de que los datos siempre están respaldados, seguros y disponibles. Con NetApp, puede reducir las tarifas de licencia, los costes de hardware y el coste total de propiedad en un 50%, aumentando la utilización de los recursos y eliminando las copias de datos innecesarias.

Continúe leyendo