Menu
cubi

What is big data?

L'analisi dei big data è un processo di analisi di set di dati estesi e diversificati per scoprire modelli nascosti, correlazioni sconosciute, trend di mercato, preferenze dei clienti e altre informazioni utili che possono aiutare le organizzazioni a prendere decisioni aziendali più informate.

Nei prossimi anni, la trasformazione digitale ridefinirà le organizzazioni, poiché la maggior parte del fatturato delle aziende a livello globale ruoterà attorno a prodotti e servizi digitali o basati sul digitale.

Dati strutturati o non strutturati, generati da esseri umani o macchine e archiviati nel data center o nel cloud, rappresentano il nuovo punto di partenza per ottenere un vantaggio competitivo.

La gestione e lo storage dei dati sono parte integrante della strategia dati di un'organizzazione.

Sfide dei big data

I leader IT e i team di analisi subiscono la schiacciante pressione legata all’enorme mole di dati odierni e all’esigenza di sfruttarli al meglio per creare nuovo valore in tutta l'organizzazione avendo a disposizione tempo, competenze e budget limitati. I dati diventano sempre più distribuiti, dinamici e diversificati nei data center e nel cloud. Questa situazione crea problemi non solo ai team di infrastruttura responsabili dell'archiviazione e della protezione dei dati, ma anche a data scientist, ingegneri e architetti che hanno bisogno di raccogliere e analizzare i dati in tempo reale da varie origini dati. A causa di questo problema di proliferazione dei dati, ai team di analisi viene chiesto di limitare l'ambito dei dati da analizzare o di attendere giorni prima di rendere disponibili per l'analisi i dati giusti.

Tecnologie per i big data

I tipi di dati non strutturati e semi-strutturati in genere non si adattano bene ai data warehouse tradizionali, che si basano su database relazionali orientati a set di dati strutturati. Inoltre, i data warehouse potrebbero non essere in grado di gestire le richieste di elaborazione imposte da insiemi di big data che necessitano di aggiornamenti frequenti o continui.

Di conseguenza, molte organizzazioni che raccolgono, elaborano e analizzano big data si affidano a database NoSQL, nonché a Hadoop e ai relativi strumenti complementari, come:

  • YARN. Una tecnologia di gestione dei cluster e una delle funzionalità chiave di Hadoop di seconda generazione
  • MapReduce. Un modello di programmazione e un'implementazione associata per elaborare e generare insiemi di big data con un algoritmo distribuito parallelo su un cluster
  • Apache Spark. Un motore veloce e generico per l'elaborazione di big data, con moduli integrati per streaming, SQL, machine learning e elaborazione di grafi
  • HBase. Un database open-source non relazionale e distribuito modellato su BigTable di Google
  • Apache Hive. Un progetto software di data warehouse basato su Apache Hadoop per fornire riepiloghi, query e analisi dei dati
  • Kafka. Una piattaforma di elaborazione dei flussi open source sviluppata da Apache Software Foundation
  • Pig. Una tecnologia open-source che offre un meccanismo di alto livello per la programmazione parallela dei processi MapReduce da eseguire sui cluster Hadoop

Gli utenti di analisi big data stanno adottando sempre più frequentemente il concetto di data lake Hadoop, che funge da repository principale per i flussi in entrata di dati non elaborati. In queste architetture, i dati possono essere analizzati direttamente in un cluster Hadoop o eseguiti attraverso un motore di elaborazione come Spark.

Big data ecosystem

Segment Key Vendors
Big Data Analytics Hadoop/Apache Software Distributions Cloudera, HortonWorks, MapR
Application Management, Security, Compliance Splunk
Spark DataBricks
NoSQL Databases Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis labs
Cloud Analytics Amazon EMR, Azure HDInsights, Google Cloud Platform
Open Source Components Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Driven by specialized analytics systems and software, big data analytics can point the way to various business benefits, including new revenue opportunities, more effective marketing, better customer service, improved operational efficiency and competitive advantages over rivals.

According to a survey by Datameer in 2016, 78% of enterprises agree that big data has the potential to fundamentally change the way they do business over the next 1 to 3 years.

Who uses big data?

Big data analytics applications enable data scientists, predictive modelers, statisticians, and other analytics professionals to analyze growing volumes of structured transaction data, plus a mix of semi-structured and unstructured data such as Internet clickstream data, web server logs, social media content, text from customer e-mails and survey responses, mobile phone call detail records, and machine data captured by sensors connected to the Internet of Things (IoT).

Big data management and storage

Rapidly gaining insights from data is crucial to capitalizing on opportunities, improving profits, and better managing risk. This ability requires enterprise-grade data management capabilities to cope with the vast datasets.

Accelerating real-time machine data analytics helps organizations detect cyberattacks before they cause damage, and prevent fraud without affecting the customer experience.

Quickly deriving business intelligence from customer data is essential to improving satisfaction levels and guiding future service offerings.

However, the first-generation big data analytics commodity storage approach (that is, DAS storage) simply doesn’t scale efficiently. And it doesn’t provide the reliability and flexibility needed as these applications become essential to competitiveness.

Shared storage/external storage big data analytics platforms deliver more scalability and performance, nondisruptively moving data where it’s needed and making sure that it is always protected and secure.

NetApp and big data

NetApp’s innovative big data analytics platform delivers up to twice the performance, seamlessly and securely moving data and workloads to the cloud or wherever needed and making sure that data is always backed up, secure, and available. With NetApp, you can lower license fees, hardware costs, and overall TCO by as much as 50% by increasing resource utilization and eliminating unnecessary data copies.

Continue Reading

Drift chat loading