Back to Basics: 중복제거 Tech OnTap은 이번 달에 두 번째 Back to Basics 기사를 싣게 되어 기쁘게 생각합니다. Back to Basics는 많이 사용되는 NetApp 기술을 잘 이해하고 활용할 수 있도록 돕기 위해 기본 사항을 살펴보는 시리즈 기사입니다. 2007년 NetApp은 스토리지 용량 요구 사항을 크게 줄이는 중복제거 기술을 발표했습니다. NetApp 중복제거 기능은 동일한 데이터 블록을 찾아 바이트 수준 확인 작업을 수행한 후 이를 단일 공유 블록에 대한 레퍼런스로 대체함으로 효율성을 향상합니다. 이 기술은 동일 볼륨이나 LUN에 있는 중복된 데이터 블록을 제거함으로써 스토리지 용량 요구 사항을 줄입니다. NetApp 중복제거는 NetApp Data ONTAP® 운영 환경과 NetApp 스토리지 시스템의 모든 데이터를 관리하는 WAFL® 파일 시스템에서 매우 중요한 부분입니다. 중복제거는 실행하는 애플리케이션이나 데이터 액세스 방법에 상관없이 "백그라운드"에서 실행되며 오버헤드가 적습니다. 흔히 “공간을 얼마나 절약할 수 있는가?”를 질문합니다. 이 질문에 대해서는 나중에 보다 자세히 다루겠지만, 일반적으로 데이터 세트와 여기에 포함된 중복 데이터 양에 따라 다르다고 말할 수 있습니다. 애틀란타 소재의 Polysius Corporation의 사례에서 비즈니스 데이터와 엔지니어링 데이터로 이루어진 복합 환경에서의 NetApp 중복제거 기능의 가치가 설명되었습니다. 이 회사는 새로운 시멘트 공장과 기존 공장을 설계하고 강화하였습니다. Polysius는 프로덕션 스토리지 요구사항에 있어서 연간 30%의 증가를 경험하고 있었습니다. Polysius는 AutoCAD 파일, Microsoft® Office 문서 및 기타 비정형 데이터가 혼합된 환경에 중복제거 기능을 적용하여 스토리지 공간의 47%를 재사용할 수 있었습니다. 일부 볼륨에서는 절감률이 최대 70%에 달했습니다. 그 결과 Polysius는 새로운 스토리지 구매를 연기할 수 있었고, 디스크에 백업 데이터를 보존하는 기간도 2배로 늘릴 수 있었습니다. 보다 자세한 사항은 Polysius 성공 사례를 읽어 보십시오. NetApp 중복제거 기능에는 다음과 같은 중요한 이점이 있습니다.
이번 Back to Basics 기사에서는 NetApp 중복제거 기능의 구현 방법과 일반적인 사용 사례 및 중복제거 기능 구현 절차 등에 대해 살펴보겠습니다. Data ONTAP에서 중복제거 기능을 구현하는 방법 NetApp 중복제거 기능은 본질적으로 레퍼런스 카운팅이라는 전통적인 전산 기술에 의존합니다. 이전에는 Data ONTAP에서 블록이 유휴 상태인지 사용 중인지만 추적했습니다. 그러나 이제는 중복제거 기능 덕분에 사용량도 추적할 수 있습니다. 중복제거 기능을 사용하면 NAS와 SAN 구성을 위해 단일 블록을 최대 255회까지 참조할 수 있습니다. 파일에는 공유 블록의 사용 여부가 표시되지 않고 WAFL 내의 기록에서 보이지 않게 세부 사항을 처리합니다. 그림 1) NetApp 중복제거 기능 작동 방법 Data ONTAP에서 두 블록의 공유 가능성을 결정하는 방법은 무엇일까요? 각 블록에 대해 블록 데이터의 해쉬가 되는 "Fingerprint"를 계산하는 방법으로 결정합니다. Fingerprint가 동일한 2개의 블록이 공유 대상이 됩니다. NetApp 중복제거 기술을 사용하면 볼륨에서 사용 중인 모든 블록을 대상으로 Fingerprint 데이터베이스를 계산합니다(이 프로세스를 "수집"이라고 함). 이 초반 작업이 끝나면 이제 데이터는 중복제거를 위한 준비를 마치게 됩니다. 일반 운영 작업이 느려지는 것을 막기 위해 중복 데이터 검사는 별도의 일괄 프로세스로 이루어집니다. 데이터가 일반 사용 중에 기록되면, WAFL은 이 데이터에 대한 Fingerprint 카탈로그를 작성합니다. 이 카탈로그는 스토리지 시스템 관리자가 정한 대로 다음과 같은 이벤트로 인해 중복제거가 시작되기 전까지 계속 누적됩니다.
중복제거 프로세스가 시작되면 변경된 블록의 Fingerprint를 키로 사용하여 정렬 작업이 시작됩니다. 그리고 이렇게 정렬된 목록은 Fingerprint 데이터베이스 파일과 병합됩니다. 양쪽 목록에서 동일한 Fingerprint가 나타날 때마다 하나로 정리할 수 있는 동일 블록이 존재한다고 할 수 있습니다. 이 경우, Data ONTAP은 블록 중 하나를 제거하고 다른 블록에 대한 레퍼런스로 대체합니다. 파일 시스템이 항상 변하기 때문에, 이러한 과정은 두 블록이 모두 실제로 사용 중이며 동일한 데이터를 포함하는 경우에만 수행합니다. 그리고 두 블록이 정말로 동일한지 확인하기 위해, 이 대상 블록을 식별한 후에는 바이트별 비교를 수행합니다. 또 NetApp 중복제거 기능을 구현하면 WAFL의 일부 특수 기능을 사용하여 중복제거 비용을 최소화하는 이점이 있습니다. 예를 들어, 디스크에 있는 모든 데이터 블록은 체크섬으로 보호합니다. NetApp은 이 체크섬을 Fingerprint에 대한 기준으로 사용합니다. 그리고 어차피 이를 계산할 것이기 때문에 "무료"로 확보할 수 있어, 시스템에 로드가 추가되지 않습니다. 또 WAFL은 사용 중인 데이터 블록을 덮어쓰지 않기 때문에, 블록을 비우기 전까지는 Fingerprint의 유효성이 유지됩니다. NetApp 중복제거 기능과 WAFL을 긴밀하게 통합하면 변경 기록 작업도 매우 효율적으로 이루어집니다. 결국 중복제거 기능은 단순히 백업만이 아닌 다양한 워크로드에 사용할 수 있으며, 이는 다른 중복제거 기능 구현에서도 마찬가지입니다. 사용 사례 NetApp은 중복제거 기능을 소개한 이후 지속적으로 이 기능이 실제 환경에 가져오는 이점을 평가하고 있습니다. 가장 대표적인 사용 사례는 VMware®와 VDI, 홈 디렉토리 데이터 및 파일 서비스입니다. Microsoft SharePoint® 및 Exchange 2010도 급속도로 부각되고 있습니다. 그동안 많은 Tech OnTap 기사가 VMware 및 VDI 환경에서의 중복제거 기능의 이점에 주목해 왔습니다. VMware 및 VDI 환경은 각 가상 시스템에서 사용되는 거의 동일한 운영 체제 환경으로 인해 파일 중복 수준이 매우 높을 수밖에 없습니다. 다음 표는 다양한 환경에서의 일반적인 결과를 보여줍니다. 표 1) 중복제거 기능의 공간 절약
일반적인 VMware 또는 VDI 환경에는 다소 동일한 운영 체제 및 애플리케이션이 설치된 가상 시스템이 상당수 있을 수 있으며 이에 따라 중복 데이터도 많을 수 있습니다. 동일한 OS를 실행하는 가상 시스템이 100대가 있고 이러한 가상 시스템마다 필요한 스토리지가 10~20GB씩이라면 거의 동일한 복사본에 할당된 스토리지가 1~2TB에 달합니다. NetApp 중복제거 기능을 적용하면 이러한 기본적인 중복을 상당히 제거할 수 있습니다. 일반적으로 말해서, 스토리지 볼륨에 가상 시스템이 X대 할당된 경우 중복제거 이후에는 중복제거 이전 환경에서 필요로 하는 운영 체제 스토리지의 약 1/X만 있으면 충분할 것입니다. 실제 결과는 볼륨 내 가상 시스템 수와 이들 시스템의 유사성 정도에 따라 달라집니다. 실제로 고객은 보통 ESX VI3 환경에서 50% 이상의 공간 절약 효과를 거두며, 90%의 스토리지를 절약하는 경우도 있습니다. 이는 전체 VMware 스토리지 환경의 중복제거와 관련한 결과로, 운영 체제뿐만 아니라 애플리케이션 데이터도 포함한 경우입니다. VDI 환경에서는 일반적으로 공간을 최대 90%까지 절약할 수 있습니다. NetApp은 또 Siemens Teamcenter PLM 소프트웨어, IBM Rational ClearCase SCM 소프트웨어, 지진 데이터 분석용 Schlumberger Petrel 소프트웨어 등, 많이 사용되는 공학 및 과학 애플리케이션에서 생성된 비정형 파일 데이터 저장소를 대상으로 중복제거 기능의 이점을 조사하고 있습니다. Teamcenter는 비교적 소규모의 메타데이터 데이터베이스를 엔지니어링 설계 파일이 저장되는 대형 "저장소"와 조합하여 활용합니다. 엔지니어가 Teamcenter 내에 설계를 저장할 때마다 설계 변경 사항이 아무리 사소하더라도 해당 설계 파일 전체 사본이 대형 저장소에 저장됩니다. NetApp은 Siemens PLM과의 긴밀한 협력하에 일상적인 작업에서처럼 다수의 설계 파일을 여러 개정 버전으로 생성하는 작업을 시뮬레이션하는 Siemens의 성능 및 확장성 벤치마크 툴을 사용하여 Teamcenter 환경에서 중복제거 기술이 갖는 가치를 평가했습니다. 그 결과 대형 저장소의 중복제거를 통해 57%의 공간이 절약되었습니다. 실제 환경에서는 대개의 경우 파일 개정 버전 수가 시뮬레이션의 경우보다 많기 때문에 결과가 훨씬 높게 나올 수 있습니다. 물론, 일반적으로 시뮬레이터를 통해 중복제거 기능의 절감 효과를 판단할 때는 주의해야 합니다. 시뮬레이션에서는 데이터 패턴이 아니라 성능에 초점을 두기 때문에 시뮬레이션한 데이터가 인위적으로 많은 양의 중복 데이터를 생성하는 경우가 많기 때문입니다. 최고의 소프트웨어 구성 관리 솔루션인 IBM Rational ClearCase는 Teamcenter와 유사하게 파일이 저장되는 대규모 “VOB(Versioned Object Base)”와 메타데이터 데이터베이스로 구성됩니다. ClearCase에서 중복제거는 VOB의 복사본을 생성해야 하는 경우 매우 유용합니다. 또 실험 환경에서 얻은 예비 결과에 따르면 전체 파일 저장 시 ClearCase 환경에서 중복제거 기능을 사용하면 40% 이상의 공간 절약 효과를 얻을 수 있는 것으로 나타났습니다. Schlumberger Petrel은 지진 데이터 해석, 유전 시각화 및 시뮬레이션 워크플로우에 사용됩니다. 이는 매우 많은 파일이 포함된 프로젝트 디렉토리를 생성합니다. 사용자가 데이터를 생성, 배포, 아카이빙할 때 여러 스토리지 장치에 중복된 데이터 객체가 저장됩니다. NetApp은 이러한 프로젝트 디렉토리에 중복제거 기능을 적용하여 약 48%의 공간 절약 효과를 확인했습니다. NetApp 중복제거 기능 사용 NetApp 중복제거 기능 실행에 필요한 기본적인 요구 사항을 표 2에 정리했습니다. 표 2) NetApp 중복제거 기능을 위한 기본 요구 사항
이러한 요구 사항과 더불어, 몇 가지 모범 사례에 주의하면 중복제거 기능을 성공적으로 활용할 수 있습니다. 이 섹션에는 중요한 몇 가지 모범 사례를 정리했으며 기타 인기 있는 NetApp 기술과 함께 중복제거 기능을 사용하는 방법에 대한 정보도 함께 제공합니다. 자세한 내용은 TR-3505: NetApp 중복제거 구축 및 구현 가이드를 참조하십시오.
중복제거 기능 및 기타 NetApp 기술 중복제거 기능은 기타 NetApp 기술과 함께 사용할 수 있도록 설계되었습니다. 대개의 경우 이러한 기술은 추가적인 이점을 제공합니다.
결론 중복제거는 중요한 스토리지 효율성 툴로서 단독으로 사용하거나 NetApp 씬 프로비저닝 및 FlexClone과 같은 다른 스토리지 효율성 솔루션과 함께 사용할 수 있습니다. 중복제거에 대한 자세한 내용은 TR-3505: FAS 및 V-Series용 NetApp 중복제거 구축 및 구현 가이드를 참조하시기 바랍니다. 이 가이드는 자주 업데이트되며 다음과 같은 다양한 주제를 다룹니다.
Tech OnTap 지금 바로 NetApp 커뮤니티의 Tech OnTap에 방문하여 구독 신청하십시오. | | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | ![]() |
| 연락처 | 구매 방법 | 피드백 | 채용 | 구독 | 개인 정보 보호 정책 | © 2011 NetApp |