데이터 중복제거는 데이터의 과도한 복사본을 제거하고 필요한 스토리지 용량을 대폭 줄이는 프로세스입니다.
중복제거는 데이터가 스토리지 시스템에 기록되는 도중 인라인 프로세스로 실행되거나, 데이터가 디스크에 기록된 후 중복 항목을 제거하기 위한 백그라운드 프로세스로 실행될 수 있습니다.
NetApp에서의 중복제거는 비용 절감을 극대화하기 위해 인라인 프로세스와 백그라운드 프로세스 모두로 실행되는 데이터 손실 없는 기술입니다. 클라이언트 작업을 방해하지 않도록 필요에 따라 인라인 프로세스로 실행되며, 비용 절감을 극대화하기 위해 백그라운드에서 포괄적으로 실행됩니다. 중복제거는 기본적으로 활성화되며 수동 개입 없이 모든 볼륨 및 애그리게이트에서 자동으로 실행됩니다.
중복제거 작업은 클라이언트의 읽기/쓰기 도메인과 분리된 전용 효율성 도메인에서 실행되므로 중복제거 작업의 성능 오버헤드가 최소화됩니다. 실행되는 애플리케이션이나 데이터 액세스 방법(NAS 또는 SAN)과 상관없이 백그라운드에서 실행됩니다.
데이터가 재해 복구 사이트에 복제될 때, 소산에 백업될 때, 온프레미스, 하이브리드 클라우드 및/또는 퍼블릭 클라우드 간에 이동할 때 중복제거 절감 효과가 나타납니다.
중복제거는 전체 FlexVol® 볼륨과 애그리게이트의 모든 볼륨에서 4KB 블록 수준으로 작동하며 중복된 데이터 블록을 제거하고 고유한 데이터 블록만 저장합니다.
중복제거 기능의 기반이 되는 핵심 기술은 바로 지문입니다. 즉, 4KB 데이터 블록마다 고유의 디지털 서명을 남깁니다.
데이터가 시스템에 기록되면 인라인 중복제거 엔진이 수신되는 블록을 검사하고 지문을 생성한 후 해시 저장소(인메모리 데이터 구조)에 저장합니다.
지문이 계산된 후 해시 저장소에서 조회가 수행됩니다. 해시 저장소에서 지문이 일치하면 중복 지문(도너 블록)에 해당하는 데이터 블록이 캐시 메모리에서 검색됩니다.
백그라운드 중복제거 엔진도 동일한 방식으로 작동합니다. 여기서는 애그리게이트의 모든 데이터 블록을 검사하고 블록의 지문을 비교하고 오탐지를 없애기 위해 바이트 단위로 비교를 수행하여 중복된 데이터를 제거합니다. 또한 이 절차를 통해 데이터 중복제거 작업 중에 데이터가 손실되지 않도록 할 수 있습니다.
NetApp® 중복제거의 몇 가지 중요한 이점은 다음과 같습니다.
중복제거는 워크로드 유형과 관계없이 유용합니다. 테스트/개발 및 애플리케이션 배포를 위해 여러 가상 시스템을 사용하는 가상 환경에서 최대 이점을 얻을 수 있습니다.
가상 데스크톱 인프라(VDI)는 데스크톱 간의 중복 데이터 비율이 매우 높기 때문에 중복제거에 매우 적합한 또 다른 후보입니다.
Oracle 및 SQL과 같은 일부 관계형 데이터베이스는 각 데이터베이스 레코드에 대해 고유한 키를 갖고 있어 중복제거 엔진이 해당 데이터베이스를 중복 항목으로 식별하지 못하는 경우가 많기 때문에 중복 제거의 이점을 크게 누리지 못합니다.
중복제거는 AFF 시스템의 모든 신규 볼륨 및 애그리게이트에서 자동으로 활성화됩니다. 그 밖의 시스템에서는 볼륨 및/또는 애그리게이트별로 중복제거를 활성화할 수 있습니다.
중복제거를 활성화하면 시스템은 절감 효과를 극대화하기 위해 인라인 및 백그라운드 작업을 모두 자동으로 실행합니다.