메뉴
큐브

What is big data?

빅데이터 분석은 다양한 대규모 데이터 세트를 검사하여 숨겨진 패턴, 알려지지 않은 상관 관계, 시장 동향, 고객 선호도 및 기타 유용한 정보를 발견하고 조직이 보다 정확한 정보를 바탕으로 비즈니스 의사 결정을 내릴 수 있도록 도움을 주는 프로세스입니다.

글로벌 비즈니스 수익의 대부분이 디지털 또는 디지털로 향상된 제품과 서비스를 중심으로 이루어짐에 따라 조직은 향후 몇 년간 디지털 혁신을 통해 재편될 것입니다.

정형 또는 비정형, 사람 또는 기계에 의해 생성되고 데이터 센터 또는 클라우드에 저장되는 데이터는 경쟁 우위의 새로운 기반이 됩니다.

데이터 관리데이터 저장은 조직의 데이터 전략에 필수적인 요소입니다.

빅데이터의 당면 과제

IT 리더와 분석 팀은 제한된 시간, 기술 및 예산으로 오늘날의 풍부한 데이터를 활용하고 조직 전체에 새로운 가치를 창출하기 위해 이를 적용해야 한다는 엄청난 압박을 받고 있습니다. 데이터는 데이터 센터 및 클라우드 전반에서 분산되고 동적으로 변경되며 다양해지고 있습니다. 이러한 상황은 데이터를 저장하고 보호해야 하는 인프라 팀뿐만 아니라 다양한 데이터 소스에서 실시간으로 데이터를 수집하고 분석해야 하는 데이터 과학자, 엔지니어, 설계자에게도 큰 과제를 안겨주고 있습니다. 이처럼 방대한 데이터의 무분별한 확장 문제로 인해 분석 팀은 분석할 데이터의 범위를 제한하거나 올바른 데이터를 분석에 사용할 수 있게 되기까지 며칠을 기다려야 합니다.

빅데이터 기술

비정형 및 반정형 데이터 유형은 일반적으로 정형 데이터 세트에 주력하는 관계형 데이터베이스에 기반을 둔 기존의 데이터 웨어하우스에는 적합하지 않습니다. 또한, 데이터 웨어하우스는 자주 또는 지속적으로 업데이트해야 하는 빅데이터 세트에서 발생하는 처리 요구를 해결하지 못할 수도 있습니다.

그 결과, 빅데이터를 수집, 처리 및 분석하는 많은 조직이 NoSQL 데이터베이스와 함께 Hadoop 및 다음과 같은 툴을 동반 사용합니다.

  • YARN. 클러스터 관리 기술이자 2세대 Hadoop의 주요 기능 중 하나
  • MapReduce. 클러스터에서 병렬 분산 알고리즘을 사용하여 빅데이터 세트를 처리하고 생성하기 위한 프로그래밍 모델 및 관련 구현
  • Apache Spark. 스트리밍, SQL, 머신 러닝, 그래프 처리를 위한 모듈이 내장된 빠르고 일반적인 빅데이터 처리 엔진
  • HBase. Google의 Bigtable을 기반으로 한 오픈 소스 비관계형 분산 데이터베이스
  • Apache Hive. 데이터 요약, 쿼리 및 분석을 제공하기 위해 Apache Hadoop을 기반으로 구축된 데이터 웨어하우스 소프트웨어 프로젝트
  • Kafka. Apache Software Foundation에서 개발한 오픈 소스 스트림 처리 플랫폼
  • Pig. Hadoop 클러스터에서 실행되는 MapReduce 작업의 병렬 프로그래밍에 고급 메커니즘을 제공하는 오픈 소스 기술

점점 더 많은 빅데이터 분석 사용자가 원시 데이터의 수신 스트림에 대한 기본 저장소 역할을 하는 Hadoop 데이터 레이크의 개념을 채택하고 있습니다. 이러한 아키텍처에서는 데이터를 Hadoop 클러스터에서 직접 분석하거나 Spark와 같은 처리 엔진을 통해 실행할 수 있습니다.

Big data ecosystem

Segment Key Vendors
Big Data Analytics Hadoop/Apache Software Distributions Cloudera, HortonWorks, MapR
Application Management, Security, Compliance Splunk
Spark DataBricks
NoSQL Databases Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis labs
Cloud Analytics Amazon EMR, Azure HDInsights, Google Cloud Platform
Open Source Components Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Driven by specialized analytics systems and software, big data analytics can point the way to various business benefits, including new revenue opportunities, more effective marketing, better customer service, improved operational efficiency and competitive advantages over rivals.

According to a survey by Datameer in 2016, 78% of enterprises agree that big data has the potential to fundamentally change the way they do business over the next 1 to 3 years.

Who uses big data?

Big data analytics applications enable data scientists, predictive modelers, statisticians, and other analytics professionals to analyze growing volumes of structured transaction data, plus a mix of semi-structured and unstructured data such as Internet clickstream data, web server logs, social media content, text from customer e-mails and survey responses, mobile phone call detail records, and machine data captured by sensors connected to the Internet of Things (IoT).

Big data management and storage

Rapidly gaining insights from data is crucial to capitalizing on opportunities, improving profits, and better managing risk. This ability requires enterprise-grade data management capabilities to cope with the vast datasets.

Accelerating real-time machine data analytics helps organizations detect cyberattacks before they cause damage, and prevent fraud without affecting the customer experience.

Quickly deriving business intelligence from customer data is essential to improving satisfaction levels and guiding future service offerings.

However, the first-generation big data analytics commodity storage approach (that is, DAS storage) simply doesn’t scale efficiently. And it doesn’t provide the reliability and flexibility needed as these applications become essential to competitiveness.

Shared storage/external storage big data analytics platforms deliver more scalability and performance, nondisruptively moving data where it’s needed and making sure that it is always protected and secure.

NetApp and big data

NetApp’s innovative big data analytics platform delivers up to twice the performance, seamlessly and securely moving data and workloads to the cloud or wherever needed and making sure that data is always backed up, secure, and available. With NetApp, you can lower license fees, hardware costs, and overall TCO by as much as 50% by increasing resource utilization and eliminating unnecessary data copies.

Continue Reading

Drift chat loading