NetApp Tech OnTap
NetApp Tech OnTap
     
Back to Basics: 중복제거

Tech OnTap은 이번 달에 두 번째 Back to Basics 기사를 싣게 되어 기쁘게 생각합니다. Back to Basics는 많이 사용되는 NetApp 기술을 잘 이해하고 활용할 수 있도록 돕기 위해 기본 사항을 살펴보는 시리즈 기사입니다.

2007년 NetApp은 스토리지 용량 요구 사항을 크게 줄이는 중복제거 기술을 발표했습니다. NetApp 중복제거 기능은 동일한 데이터 블록을 찾아 바이트 수준 확인 작업을 수행한 후 이를 단일 공유 블록에 대한 레퍼런스로 대체함으로 효율성을 향상합니다. 이 기술은 동일 볼륨이나 LUN에 있는 중복된 데이터 블록을 제거함으로써 스토리지 용량 요구 사항을 줄입니다.

NetApp 중복제거는 NetApp Data ONTAP® 운영 환경과 NetApp 스토리지 시스템의 모든 데이터를 관리하는 WAFL® 파일 시스템에서 매우 중요한 부분입니다. 중복제거는 실행하는 애플리케이션이나 데이터 액세스 방법에 상관없이 "백그라운드"에서 실행되며 오버헤드가 적습니다.

흔히 "공간을 얼마나 절약할 수 있는가?"를 질문합니다. 이 질문에 대해서는 나중에 보다 자세히 다루겠지만, 일반적으로 데이터 세트와 여기에 포함된 중복 데이터 양에 따라 다르다고 말할 수 있습니다. 애틀란타 소재의 Polysius Corporation의 사례에서 비즈니스 데이터와 엔지니어링 데이터로 이루어진 복합 환경에서의 NetApp 중복제거 기능의 가치가 설명되었습니다. 이 회사는 새로운 시멘트 공장과 기존 공장을 설계하고 강화하였습니다.

Polysius는 프로덕션 스토리지 요구사항에 있어서 연간 30%의 증가를 경험하고 있었습니다. Polysius는 AutoCAD 파일, Microsoft® Office 문서 및 기타 비정형 데이터가 혼합된 환경에 중복제거 기능을 적용하여 스토리지 공간의 47%를 재사용할 수 있었습니다. 일부 볼륨에서는 절감률이 최대 70%에 달했습니다. 그 결과 Polysius는 새로운 스토리지 구매를 연기할 수 있었고, 디스크에 백업 데이터를 보존하는 기간도 2배로 늘릴 수 있었습니다. 보다 자세한 사항은 Polysius 성공 사례를 읽어 보십시오.

NetApp 중복제거 기능에는 다음과 같은 중요한 이점이 있습니다.

  • NetApp이나 타사의 기본, 보조 및 아카이브 스토리지에서 운영됩니다.
  • 애플리케이션에 대해 독립적입니다.
  • 프로토콜에 대해 독립적입니다.
  • 오버헤드가 매우 적습니다.
  • NetApp FAS 및 V-Series 스토리지 시스템에서 작동합니다.
  • 바이트별 검증이 이루어집니다.
  • 볼륨 및 LUN의 이전에 저장된 데이터나 새로운 데이터 모두에 적용 가능합니다.
  • 사용량이 적은 시간에 실행할 수 있습니다.
  • 기타 NetApp 스토리지 효율성 기술과 통합됩니다.
  • 중복제거에 따른 절감이 SnapMirror® 또는 Flash Cache 사용 시 계승됩니다.
  • 평가 도구가 간단합니다.
  • 무료로 제공됩니다.

이번 Back to Basics 기사에서는 NetApp 중복제거 기능의 구현 방법과 일반적인 사용 사례 및 중복제거 기능 구현 절차 등에 대해 살펴보겠습니다.

Data ONTAP에서 중복제거 기능을 구현하는 방법

NetApp 중복제거 기능은 본질적으로 레퍼런스 카운팅이라는 전통적인 전산 기술에 의존합니다. 이전에는 Data ONTAP에서 블록이 유휴 상태인지 사용 중인지만 추적했습니다. 그러나 이제는 중복제거 기능 덕분에 사용량도 추적할 수 있습니다. 중복제거 기능을 사용하면 NAS와 SAN 구성을 위해 단일 블록을 최대 255회까지 참조할 수 있습니다. 파일에는 공유 블록의 사용 여부가 표시되지 않고 WAFL 내의 기록에서 보이지 않게 세부 사항을 처리합니다.

FAS6200 시리즈

그림 1) NetApp 중복제거 기능 작동 방법

Data ONTAP에서 두 블록의 공유 가능성을 결정하는 방법은 무엇일까요? 각 블록에 대해 블록 데이터의 해쉬가 되는 "Fingerprint"를 계산하는 방법으로 결정합니다. Fingerprint가 동일한 2개의 블록이 공유 대상이 됩니다.

NetApp 중복제거 기술을 사용하면 볼륨에서 사용 중인 모든 블록을 대상으로 Fingerprint 데이터베이스를 계산합니다(이 프로세스를 "수집"이라고 함). 이 초반 작업이 끝나면 이제 데이터는 중복제거를 위한 준비를 마치게 됩니다.

일반 운영 작업이 느려지는 것을 막기 위해 중복 데이터 검사는 별도의 일괄 프로세스로 이루어집니다. 데이터가 일반 사용 중에 기록되면, WAFL은 이 데이터에 대한 Fingerprint 카탈로그를 작성합니다. 이 카탈로그는 스토리지 시스템 관리자가 정한 대로 다음과 같은 이벤트로 인해 중복제거가 시작되기 전까지 계속 누적됩니다.

  • 중복제거 "시작" 명령이 수동으로 시작된 경우
  • 예약된 중복제거 프로세스가 실행되는 경우
  • 볼륨에 20%의 새로운 데이터가 기록되는 경우
  • SnapVault® 전송이 완료된 경우

중복제거 프로세스가 시작되면 변경된 블록의 Fingerprint를 키로 사용하여 정렬 작업이 시작됩니다. 그리고 이렇게 정렬된 목록은 Fingerprint 데이터베이스 파일과 병합됩니다. 양쪽 목록에서 동일한 Fingerprint가 나타날 때마다 하나로 정리할 수 있는 동일 블록이 존재한다고 할 수 있습니다. 이 경우, Data ONTAP은 블록 중 하나를 제거하고 다른 블록에 대한 레퍼런스로 대체합니다. 파일 시스템이 항상 변하기 때문에, 이러한 과정은 두 블록이 모두 실제로 사용 중이며 동일한 데이터를 포함하는 경우에만 수행합니다. 그리고 두 블록이 정말로 동일한지 확인하기 위해, 이 대상 블록을 식별한 후에는 바이트별 비교를 수행합니다.

또 NetApp 중복제거 기능을 구현하면 WAFL의 일부 특수 기능을 사용하여 중복제거 비용을 최소화하는 이점이 있습니다. 예를 들어, 디스크에 있는 모든 데이터 블록은 체크섬으로 보호합니다.

NetApp은 이 체크섬을 Fingerprint에 대한 기준으로 사용합니다. 그리고 어차피 이를 계산할 것이기 때문에 "무료"로 확보할 수 있어, 시스템에 로드가 추가되지 않습니다. 또 WAFL은 사용 중인 데이터 블록을 덮어쓰지 않기 때문에, 블록을 비우기 전까지는 Fingerprint의 유효성이 유지됩니다. NetApp 중복제거 기능과 WAFL을 긴밀하게 통합하면 변경 기록 작업도 매우 효율적으로 이루어집니다. 결국 중복제거 기능은 단순히 백업만이 아닌 다양한 워크로드에 사용할 수 있으며, 이는 다른 중복제거 기능 구현에서도 마찬가지입니다.

사용 사례

NetApp은 중복제거 기능을 소개한 이후 지속적으로 이 기능이 실제 환경에 가져오는 이점을 평가하고 있습니다. 가장 대표적인 사용 사례는 VMware®와 VDI, 홈 디렉토리 데이터 및 파일 서비스입니다. Microsoft SharePoint® 및 Exchange 2010도 급속도로 부각되고 있습니다.

그동안 많은 Tech OnTap 기사가 VMware 및 VDI 환경에서의 중복제거 기능의 이점에 주목해 왔습니다. VMware 및 VDI 환경은 각 가상 시스템에서 사용되는 거의 동일한 운영 체제 환경으로 인해 파일 중복 수준이 매우 높을 수밖에 없습니다. 다음 표는 다양한 환경에서의 일반적인 결과를 보여줍니다.

표 1) 중복제거 기능의 공간 절약

데이터 세트 유형 애플리케이션 유형 중복제거 기능만

파일 서비스/IT 인프라

30%

가상 서버 및 데스크톱

70%

데이터베이스

Oracle® OLTP

0%

Oracle DW

15%

SQL Server®

20%

이메일, 협업

Exchange 2003/2007

3%

Exchange 2010

15%

엔지니어링 데이터

30%

지진 데이터

3%

아카이브 데이터

25%

백업 데이터

95%


일반적인 VMware 또는 VDI 환경에는 다소 동일한 운영 체제 및 애플리케이션이 설치된 가상 시스템이 상당수 있을 수 있으며 이에 따라 중복 데이터도 많을 수 있습니다.

동일한 OS를 실행하는 가상 시스템이 100대가 있고 이러한 가상 시스템마다 필요한 스토리지가 10~20GB씩이라면 거의 동일한 복사본에 할당된 스토리지가 1~2TB에 달합니다. NetApp 중복제거 기능을 적용하면 이러한 기본적인 중복을 상당히 제거할 수 있습니다.

일반적으로 말해서, 스토리지 볼륨에 가상 시스템이 X대 할당된 경우 중복제거 이후에는 중복제거 이전 환경에서 필요로 하는 운영 체제 스토리지의 약 1/X만 있으면 충분할 것입니다. 실제 결과는 볼륨 내 가상 시스템 수와 이들 시스템의 유사성 정도에 따라 달라집니다.

실제로 고객은 보통 ESX VI3 환경에서 50% 이상의 공간 절약 효과를 거두며, 90%의 스토리지를 절약하는 경우도 있습니다. 이는 전체 VMware 스토리지 환경의 중복제거와 관련한 결과로, 운영 체제뿐만 아니라 애플리케이션 데이터도 포함한 경우입니다. VDI 환경에서는 일반적으로 공간을 최대 90%까지 절약할 수 있습니다.

NetApp은 또 Siemens Teamcenter PLM 소프트웨어, IBM Rational ClearCase SCM 소프트웨어, 지진 데이터 분석용 Schlumberger Petrel 소프트웨어 등, 많이 사용되는 공학 및 과학 애플리케이션에서 생성된 비정형 파일 데이터 저장소를 대상으로 중복제거 기능의 이점을 조사하고 있습니다.

Teamcenter는 비교적 소규모의 메타데이터 데이터베이스를 엔지니어링 설계 파일이 저장되는 대형 "저장소"와 조합하여 활용합니다. 엔지니어가 Teamcenter 내에 설계를 저장할 때마다 설계 변경 사항이 아무리 사소하더라도 해당 설계 파일 전체 사본이 대형 저장소에 저장됩니다.

NetApp은 Siemens PLM과의 긴밀한 협력하에 일상적인 작업에서처럼 다수의 설계 파일을 여러 개정 버전으로 생성하는 작업을 시뮬레이션하는 Siemens의 성능 및 확장성 벤치마크 툴을 사용하여 Teamcenter 환경에서 중복제거 기술이 갖는 가치를 평가했습니다. 그 결과 대형 저장소의 중복제거를 통해 57%의 공간이 절약되었습니다. 실제 환경에서는 대개의 경우 파일 개정 버전 수가 시뮬레이션의 경우보다 많기 때문에 결과가 훨씬 높게 나올 수 있습니다. 물론, 일반적으로 시뮬레이터를 통해 중복제거 기능의 절감 효과를 판단할 때는 주의해야 합니다. 시뮬레이션에서는 데이터 패턴이 아니라 성능에 초점을 두기 때문에 시뮬레이션한 데이터가 인위적으로 많은 양의 중복 데이터를 생성하는 경우가 많기 때문입니다.

최고의 소프트웨어 구성 관리 솔루션인 IBM Rational ClearCase는 Teamcenter와 유사하게 파일이 저장되는 대규모 "VOB(Versioned Object Base)"와 메타데이터 데이터베이스로 구성됩니다. ClearCase에서 중복제거는 VOB의 복사본을 생성해야 하는 경우 매우 유용합니다. 또 실험 환경에서 얻은 예비 결과에 따르면 전체 파일 저장 시 ClearCase 환경에서 중복제거 기능을 사용하면 40% 이상의 공간 절약 효과를 얻을 수 있는 것으로 나타났습니다.

Schlumberger Petrel은 지진 데이터 해석, 유전 시각화 및 시뮬레이션 워크플로우에 사용됩니다. 이는 매우 많은 파일이 포함된 프로젝트 디렉토리를 생성합니다. 사용자가 데이터를 생성, 배포, 아카이빙할 때 여러 스토리지 장치에 중복된 데이터 객체가 저장됩니다. NetApp은 이러한 프로젝트 디렉토리에 중복제거 기능을 적용하여 약 48%의 공간 절약 효과를 확인했습니다.

NetApp 중복제거 기능 사용

NetApp 중복제거 기능 실행에 필요한 기본적인 요구 사항을 표 2에 정리했습니다.

표 2) NetApp 중복제거 기능을 위한 기본 요구 사항

요구 사항 중복제거

하드웨어

NearStore® R200
FAS2000 시리즈
FAS3000 시리즈
FAS3100 시리즈
FAS3200 시리즈
FAS6000 시리즈
FAS6200 시리즈
IBM N5000 시리즈
IBM N7000 시리즈
참고: Data ONTAP 7.3 버전부터는 위에 나온 NetApp FAS 시스템 및 IBM N 시리즈 Gateway 시스템에 상응하는 V-Series 시스템도 지원됩니다.

필요한 최소 Data ONTAP 버전

Data ONTAP 7.2.5.1
(8.0.X의 경우는 7 모드만)

필수 라이센스

A-SIS
NearStore 라이센스(Data ONTAP 8.0 이전 버전에 필요)

지원되는 볼륨 유형

FlexVol®만, 기존 볼륨 없음

최대 볼륨 크기

Data ONTAP 8.0.1의 경우, 중복제거와 관련한 모든 플랫폼에 대해 16TB가 한도입니다. 이전 버전의 Data ONTAP에서 "유연한 볼륨 최대 크기"는 NetApp 모델에 따라 다릅니다. 자세한 내용은 TR-3505를 참조하십시오.

지원 프로토콜

모두

이러한 요구 사항과 더불어, 몇 가지 모범 사례에 주의하면 중복제거 기능을 성공적으로 활용할 수 있습니다. 이 섹션에는 중요한 몇 가지 모범 사례를 정리했으며 기타 인기 있는 NetApp 기술과 함께 중복제거 기능을 사용하는 방법에 대한 정보도 함께 제공합니다. 자세한 내용은 TR-3505: NetApp 중복제거 구축 및 구현 가이드를 참조하십시오.

  • 배포 전에 테스트 환경에서 싸이징 요구 사항뿐 아니라 중복제거가 성능에 미치는 효과도 측정해야 합니다. 특히 표 1에 정리되어 있는 것과 같이 NetApp에서 이전에 테스트하지 않은 애플리케이션에 대해서는 더욱 그렇습니다.
  • 중복제거 기능은 시스템 리소스를 사용하며 디스크의 데이터 레이아웃을 바꿀 수 있습니다. 중복제거가 데이터 레이아웃에 미치는 영향 및 애플리케이션의 I/O 패턴으로 인해 읽기 및 쓰기 I/O 성능이 달라질 수 있습니다. 공간 절약 및 성능 효과는 애플리케이션 및 데이터 콘텐츠에 따라 달라질 수 있습니다.
  • 애플리케이션이 새 데이터를 소량만 생성한다면 잦은 중복제거 실행의 이점이 거의 없기 때문에 중복제거를 가끔 실행하십시오. 중복제거 실행 빈도는 유연한 볼륨에 포함된 데이터의 변화율에 따라 달라집니다.
  • 중복제거 스캐너 프로세스를 동시에 자주 실행할수록 사용되는 시스템 리소스도 더 많습니다. 다음 중 한 가지를 수행하는 것이 가장 좋습니다.
    • 유연한 볼륨에 대한 중복제거 일정을 엇갈리게 배치해 중복제거 프로세스가 번갈아 실행되도록 함으로써, 과도하게 많은 동시 프로세스가 실행될 가능성을 줄입니다.
    • 자동 모드를 사용하여 각각의 유연한 볼륨에 중요한 추가 데이터가 기록될 때만 중복제거가 실행되도록 합니다. 이 경우 중복제거 기능이 소규모 환경에서 실행될 때 자연스럽게 번갈아 실행됩니다.
    • 중복제거를 수동으로 실행합니다.
    • 중복제거할 신규 데이터의 양을 최소화하도록 중복제거를 야간에 실행하면 완료에 걸리는 시간이 줄어듭니다.
  • 중복제거 프로세스가 완료되기 전에 Snapshot® 복사본이 생성된 경우에는 절약되는 공간이 줄어들 가능성이 높습니다. 가능하면 Snapshot 복사본을 생성하기 전에 중복제거 프로세스를 실행하고, Snapshot 복사본을 생성하기 전에 중복제거 프로세스가 완료되도록 하십시오.
  • 중복제거를 제대로 실행하려면 중복제거 메타데이터를 위한 약간의 여유 공간을 남겨야 합니다. 7.3 이전 버전의 Data ONTAP에서는 각각의 유연한 볼륨에 총 데이터 분량의 6%에 해당하는 여유 공간이 있어야 합니다. Data ONTAP 7.3 이상 버전에서는 Aggregate에 중복제거된 유연한 볼륨 전체를 위한 여유 공간이 총 데이터 분량의 4%(Fingerprint + 변경 로그) 정도 있어야 하며, 각각의 유연한 볼륨에는 총 데이터의 2%에 해당하는 여유 공간이 필요합니다. 이에 대해서는 TR-3505, 5.3.3 섹션에 보다 자세하게 나와 있습니다.

중복제거 기능 및 기타 NetApp 기술

중복제거 기능은 기타 NetApp 기술과 함께 사용할 수 있도록 설계되었습니다. 대개의 경우 이러한 기술은 추가적인 이점을 제공합니다.

  • Flash Cache. Flash Cache는 I/O 작업을 가속화하는 지능형 캐슁을 제공합니다. NetApp 중복제거는 캐쉬 적중 가능성을 높입니다. 중복제거된 블록이 Flash Cache에 있으면 다시 요청될 가능성이 훨씬 더 큽니다. 이 효과를 캐쉬 확장이라고도 하며, 서버와 데스크톱 가상화에 특히 도움이 됩니다.
  • Volume SnapMirror. 중복제거된 볼륨을 볼륨 SnapMirror로 복제할 때, 타깃 볼륨은 소스 볼륨에서 중복제거된 상태를 자동으로 상속합니다. 이 효과가 VMware에 미치는 영향에 대해서는 이전 기사에서 다루었습니다. 모든 형태의 SnapMirror 및 SnapVault와 중복제거 기능의 상호 작용에 대해서도 최신 기사에서 설명했습니다.
  • FlexClone. FlexClone® 기술은 데이터 볼륨 및 데이터 세트를 투명한 가상 복사본으로 즉시 복제합니다. FlexClone 볼륨이 생성되면 다음과 같은 결과를 얻습니다.
    • 상위 FlexClone 볼륨에 중복제거 기능이 활성화된 경우 새 볼륨은 절약된 공간을 상속합니다.
    • 복제된 볼륨은 상위 볼륨의 중복제거 구성(예: 중복제거 일정)을 상속합니다.
    • Data ONTAP 7.3 버전부터는 중복제거 메타데이터 파일(Fingerprint 데이터베이스 및 변경 로그 파일)이 Aggregate의 볼륨 외부에 있기 때문에 복제되지 않습니다. 따라서 전체 중복제거가 계속되려면 중복제거 기능이 복제된 볼륨에서 시작되어야 합니다
  • 압축. Data ONTAP 8.0.1에서 소개된 NetApp 데이터 압축은 중복제거 기능을 크게 보완합니다. 절약 가능한 공간과 사용 사례에 대해서는 이전 Tech OnTap 기사에서 설명하고 있습니다.
  • 씬 프로비저닝. 중복제거 기능은 NetApp 씬 프로비저닝 기능과 함께 동작하여 절약 공간을 극대화합니다. NAS 볼륨은 구성이 매우 간단합니다. LUN에서는 다음 설정을 사용하여 공간 절약을 극대화할 수 있습니다(자세한 내용은 TR-3505, 6.4.18 섹션 참조).
    • LUN 공간 예약 값 = 꺼짐
    • 볼륨 예약 비율 값 = 0~100 사이의 임의의 값
    • 볼륨 보증 = 없음
    • 스냅 예약 공간 = 0%
    • 자동 삭제 = 켜짐
    • 자동 크기 조정 = 켜짐
    • try_first = volume_grow

결론

중복제거는 중요한 스토리지 효율성 툴로서 단독으로 사용하거나 NetApp 씬 프로비저닝 및 FlexClone과 같은 다른 스토리지 효율성 솔루션과 함께 사용할 수 있습니다. 중복제거에 대한 자세한 내용은 TR-3505: FAS 및 V-Series용 NetApp 중복제거 구축 및 구현 가이드를 참조하시기 바랍니다. 이 가이드는 자주 업데이트되며 다음과 같은 다양한 주제를 다룹니다.

  • 구성 및 운영
  • 성능 및 공간 효율성 향상을 위한 싸이징
  • 기타 NetApp 기술 활용
  • VMware, Microsoft Exchange, SQL Server 및 SharePoint, Lotus Domino, Oracle 등과 같은 특정 애플리케이션에서의 사용에 관한 다양한 내용이 포함된 모범 사례
  • 문제 해결
 중복제거에 대해 의견이 있으십니까?

NetApp 온라인 커뮤니티에서 질문을 하고 아이디어를 교환하며 생각을 공유하십시오.

Carlos Alvarez
선임 기술 마케팅 엔지니어
NetApp


Carlos는 2008년부터 NetApp에서 근무해 왔으며 중복제거, 데이터 압축 및 씬 프로비저닝 분야에서의 심도 있는 전문 지식을 바탕으로 스토리지 효율성 분야를 전담하고 있습니다. 또한 가장 효과적이고 적합한 NetApp® 스토리지 효율성 기술을 고객 구성에 통합할 수 있도록 정기적으로 지침을 제공합니다. Carlos는 20년이 넘는 업계 경험을 바탕으로 수많은 구현 가이드, 기술 백서, 레퍼런스 아키텍처, 모범 사례 및 솔루션 가이드 작업에 참여해 왔습니다.


Tech OnTap
구독 신청
Tech OnTap은 IT 통찰력, 실제 모범 사례, 유용한 정보와 툴, 미공개 엔지니어링 인터뷰 기사, 데모, 동종 업계 평가 등의 다양한 정보를 매월 제공합니다.

지금 바로 NetApp 커뮤니티의 Tech OnTap에 방문하여 구독 신청하십시오.


 
탐색
탐색
Tech OnTap에서 말하는 중복제거 기능
중복제거 기능에 대해 더 자세히 알고 싶으십니까? Tech OnTap의 이전 기사에 관심이 있으시면 찾아보실 수 있습니다.


Back to Basics 기사 더 보기
첫 번째 Back to Basics 기사는 NetApp® 씬 프로비저닝에 관한 것입니다. 이 기사를 통해 씬 프로비저닝의 구현 방법, 모범 사례 등을 알아보십시오.

탐색
 
Go further,faster TRUSTe
연락처   |   구매 방법   |   피드백   |   채용  |   구독   |   개인 정보 보호 정책   |   © 2011 NetApp