설명 가능한 AI: 정의 이것이 어떻게 가능할까요? 그렇다면 데이터의 역할은 무엇입니까?

이 페이지 공유하기

Artificial Intelligence

Mike McNamara

2022-02-22

5,440 조회수

기업은 인공 지능(AI) 역량을 확대함에 따라 중요하고 종종 어려운 문제를 해결해야 합니다. AI가 책임감 있게 사용되고 있는지, AI의 결과에 관해 설명할 수 있는지 확인해야 합니다. 데이터가 모든 AI 프로세스의 토대가 되므로 이 블로그 게시물 시리즈에서는 데이터, 데이터 관리, 데이터 거버넌스의 관점에서 중요한 AI 관련 질문을 살펴보겠습니다. 이 두 번째 게시물에서 주로 다루는 내용은 설명 가능한 AI입니다. 이 시리즈의 마지막 게시물에서는 연합 학습에 관해 살펴봅니다.

이 시리즈의 첫 번째 게시물에서는 책임감 있고 윤리적인 AI의 4가지 원칙인 공정성, 개인 정보 보호, 보안 및 해석 가능성(설명 가능성)에 관해 다루었습니다. AI 모델은 현재 우리 삶의 모든 측면에 내재되어 채용 대상에서 대출 승인 대상까지 중요한 결정에 영향을 미칩니다. 설명 가능한 인공 지능(XAI)은 AI 모델이 의사 결정에 도달하는 방법을 이해하고 오류의 원인을 파악하는 데 있어 매우 중요해졌습니다.

이 게시물에서는 설명 가능한 AI가 중요한 이유, 관련 과제 및 데이터의 주요 역할 등에 관해 살펴봅니다.

설명 가능한 AI가 선사하는 단순명료함

먼저 XAI가 무엇이며 왜 필요한지 이해하는 것이 중요합니다. AI 알고리즘은 입력을 받아들여 출력을 제공하지만, 내부 작동 방식을 이해할 수 없는 '블랙박스'로 작동하는 경우가 많습니다. XAI의 목표는 알고리즘의 출력에 대한 이론적 근거를 인간이 이해할 수 있게 설명하는 것입니다.

예를 들어, 대부분 AI 알고리즘에서는 알고리즘이 방대한 훈련 데이터를 기반으로 패턴을 식별하는 방법을 학습하는 딥 러닝을 사용합니다. 딥 러닝은 우리 뇌의 연결 방식을 모방한 신경망 접근 방식입니다. 사람의 사고 과정과 마찬가지로, 딥 러닝 알고리즘이 어떻게 예측이나 결정에 도달했는지 확인하기가 어렵거나 불가능할 수 있습니다.

신용 점수 및 대출 승인과 같은 고용 및 금융 서비스 사용 사례에 대한 결정은 중요하며 설명할 가치가 있습니다. 이러한 알고리즘 중 하나가 잘못된 추천을 한다 해도 적어도 지금 당장은 신체적으로 해를 입을 사람은 없습니다. 그러나 그 결과가 훨씬 더 심각한 경우도 많이 있습니다.

딥 러닝 알고리즘은 암 진단과 같은 의료 사용 사례에서 점점 더 중요해지고 있으며, 이에 따라 의사가 알고리즘 진단의 기반을 이해하는 것이 중요합니다. 거짓 음성은 환자가 생명을 구하는 치료를 받지 못함을 의미할 수 있습니다. 반면에 거짓 양성으로 인해 환자가 필요하지 않은데도 비용이 많이 들고 침습적인 치료를 받게 될 수 있습니다. 증가하는 AI의 이점을 최대한 활용하려는 방사선 전문의와 종양 전문의에게 일정 수준의 설명은 필수적입니다.

설명 가능한 AI 원칙

미국 상무부 산하 국립표준연구소(NIST)는 XAI를 구성하는 개념을 확장하기 위해 설명 가능한 인공 지능의 4가지 원칙을 정의합니다.

AI 시스템은 '각 출력에 대한 증거, 뒷받침 또는 추론'을 제공해야 합니다.
AI 시스템은 사용자가 이해할 수 있는 설명을 제공해야 합니다.
설명 정확성. AI 시스템이 출력에 도착하는 데 사용한 과정이 설명에 정확히 반영되어야 합니다.
지식 제한. AI 시스템은 의도된 조건에서만 작동해야 하며, 결과에 대한 충분한 신뢰가 결여된 경우에는 출력을 제공하지 않아야 합니다.

XAI 원칙의 예

다음은 이러한 원칙이 적용되는 방식의 예입니다.

설명
NIST는 5가지 유형의 설명을 정의합니다.

알고리즘의 주제를 알려줍니다. 명백한 예로는 대출이 승인 또는 승인되지 않은 이유에 관한 설명이 있습니다.
AI 시스템에 대한 사회적 신뢰를 구축합니다. 특정 출력을 설명하는 대신 일부 유형의 설명은 신뢰를 높이기 위해 사용되는 모델과 접근 방식을 정당화합니다. 여기에는 알고리즘의 목적, 생성 방법, 사용된 데이터, 출처, 강점과 한계가 무엇인지 설명하는 것이 포함될 수 있습니다.
규정 준수 또는 규제 요구사항을 충족합니다. 규제가 엄격한 산업에서 AI 알고리즘이 점점 더 중요해짐에 따라 규제 준수를 입증할 수 있어야 합니다. 예를 들어, 자율주행용 AI 알고리즘은 적용 가능한 교통 규정을 어떻게 준수하는지 설명해야 합니다.
추가 시스템 개발을 지원합니다. 기술 담당자는 AI 개발 중에 시스템 개선을 위해 시스템에서 잘못된 출력이 발생하는 위치와 이유를 파악해야 합니다.
알고리즘의 소유자에게 이익을 줍니다. 기업은 모든 업종에 AI를 배포하여 많은 혜택을 누릴 수 있을 것으로 기대하고 있습니다. 예를 들어, 스트리밍 서비스는 사용자가 서비스를 계속 구독하도록 하는 설명 가능한 추천 기능의 이점을 활용합니다.

유의미성
사용자가 제공된 설명을 이해할 때 유의미성 원칙이 충족됩니다. 특정 AI 알고리즘에 관해 설명이 필요한 다양한 유형의 사용자가 있을 수 있습니다. 자율주행차의 예에서 'AI가 도로 속의 비닐 봉투를 바위로 분류하여 부딪히지 않도록 조치를 취했습니다'와 같이 자동차 운전자를 만족시키는 설명은 문제를 해결하려는 AI 개발자의 요구는 충족하지 못할 것입니다. 개발자의 입장에서는 비닐 봉투가 잘못 분류된 이유를 이해해야 합니다.

설명 정확성
설명 정확성은 출력 정확성과는 별개입니다. AI 알고리즘은 어떻게 출력에 도달했는지 정확히 설명해야 합니다. 대출 승인 알고리즘이 실제로 신청자의 우편 번호를 기반으로 결정되었음에도 불구하고 신청자의 소득과 부채를 기반으로 결정했다고 설명한다면 그 설명은 정확하지 않습니다.

지식 제한
AI 시스템은 2가지 방법으로 지식 제한에 도달할 수 있습니다. 입력한 내용이 시스템 전문 지식을 벗어날 수 있습니다. NIST는 조류 종을 분류하기 위해 구축된 시스템의 예를 사용합니다. 사과를 사진으로 제공하면 시스템은 입력이 새가 아니라고 설명해야 합니다. 또는 시스템에 흐릿한 사진을 제시하면 이미지에서 새를 식별할 수 없거나 식별 정보의 신뢰도가 매우 낮다고 보고해야 합니다.

설명 가능한 AI의 작동 방식

이러한 원칙은 XAI에서 예상되는 출력을 정의하는 데 도움이 되지만, 해당 출력에 도달하는 방법은 안내하지 않습니다. XAI를 3가지 범주로 세분화하는 것이 유용할 수 있습니다.

설명 가능한 데이터. 모델을 훈련하기 위해 어떤 데이터가 사용되었습니까? 해당 데이터를 선택한 이유는 무엇입니까? 공정성은 어떻게 평가되었습니까? 편견을 제거하는 노력이 이루어졌습니까?
설명 가능한 예측. 특정 출력에 도달하기 위해 활성화 또는 사용된 모델의 기능은 무엇입니까?
설명 가능한 알고리즘. 모델을 구성하는 개별 레이어는 무엇이며, 이러한 레이어가 어떻게 출력이나 예측으로 이어집니까?

특히, 신경망의 경우 '설명 가능한 데이터'는 적어도 원칙적으로는 달성하기가 쉬운 유일한 범주입니다. 현재 진행 중인 많은 연구는 설명 가능한 예측과 알고리즘을 달성하는 방법에 중점을 두고 있습니다. 설명 가능성에 대한 현재 접근 방식은 2가지입니다.

프록시 모델링. 실제 모델을 근사화하기 위해 의사결정 트리와 같은 다른 유형의 모델이 사용됩니다. 근사치이므로 실제 모델 결과와 다를 수 있습니다.
해석 가능성을 위한 설계. 모델이 쉽게 설명할 수 있도록 설계되었습니다. 이 접근 방식은 모델의 예측력 또는 전체 정확도를 저하시킬 위험이 있습니다.

설명 가능한 모델을 '화이트박스' 모델이라고도 합니다. 최근 블로그에서 언급한 바와 같이, '설명 가능한 화이트박스 AI를 통해 사용자는 의사 결정의 근거를 이해할 수 있어 비즈니스 환경에서 그 인기가 날로 높아지고 있습니다. 이러한 모델은 블랙박스 알고리즘만큼 기술적으로 인상적이지 않습니다.' 설명 가능한 기술에는 의사결정 트리, 베이지안 네트워크, 희소 선형 모델 등이 포함됩니다.

연구자들은 또한 지식 그래프와 기타 그래프 관련 기술을 통합하는 등 블랙박스 모델을 더 설명하기 쉽게 만드는 방법을 찾고 있습니다.

데이터 및 설명 가능한 AI

XAI에서 가장 달성하기 쉬운 범주는 설명 가능한 데이터입니다. 그러나 AI 알고리즘을 훈련하는 데 사용될 수 있는 엄청난 양의 데이터를 고려할 때 '달성 가능'은 말처럼 쉽지 않습니다. GPT-3 자연어 알고리즘이 극단적인 예입니다. 이 모델은 인간의 언어를 모방할 수 있지만, 훈련 중에 인터넷에서 수많은 유해한 콘텐츠를 습득하기도 했습니다.

Google에서 언급했듯이, 'AI 시스템은 기본 훈련 데이터 및 훈련 프로세스뿐만 아니라 AI 모델을 통해 가장 잘 이해됩니다.' 이러한 이해를 위해서는 훈련된 AI 모델을 훈련에 사용된 정확한 데이터 세트에 매핑하는 능력과 모델 버전이 훈련된 지 수년이 지났더라도 해당 데이터를 면밀히 검사할 수 있는 능력이 필요합니다.

모델의 설명 가능성을 높이는 가장 쉬운 방법 중 하나는 모델을 훈련하는 데 사용되는 데이터에 세심한 주의를 기울이는 것입니다. 설계 단계에서 팀은 알고리즘을 훈련할 데이터의 출처가 어디인지, 해당 데이터가 존재한다고 가정할 때 합법적이고 윤리적으로 획득되었는지 여부, 데이터에 편견이 포함되어 있는지 여부, 이러한 편견을 완화하기 위해 무엇을 할 수 있는지 결정해야 합니다. 이는 과소평가되어서는 안 되는 중대한 업무입니다. 기업의 67%가 AI를 위해 20개 이상의 데이터 소스를 활용하고 있습니다.

결과와 관련이 없거나 관련이 없어야 하는 데이터를 신중하게 제외하는 것도 중요합니다. 앞서 언급했듯이, 대출 승인 알고리즘은 신청자의 우편 번호를 기반으로 결정을 내릴 가능성이 있습니다. 알고리즘의 출력이 관련성이 없는 요소(종종 인종을 나타내는 우편 번호 등)를 기반으로 하지 않도록 하는 가장 좋은 방법은 훈련 세트나 입력 데이터에 해당 데이터를 포함하지 않는 것입니다.

NetApp, 설명 가능한 AI, 그리고 고객

설명 가능한 데이터는 XAI에 필수적이므로 데이터 관리 및 데이터 거버넌스에 대한 모범 사례를 구축해야 합니다. 이러한 모범 사례에는 운영하는 각 AI 모델의 각 버전을 훈련하는 데 사용되는 데이터 세트에 대한 완벽한 추적 기능이 포함됩니다.

NetApp은 기업이 데이터에서 더 많은 것을 얻을 수 있도록 전문적으로 지원합니다. NetApp은 온프레미스와 클라우드를 포함한 모든 위치의 데이터를 관리할 수 있도록 지원합니다. NetApp은 이 방법으로 데이터 액세스, 보호 및 비용 최적화를 달성합니다.

NetApp® AI 전문가가 고객과 협력하여 AI 데이터를 효율적으로 수집, 저장, 보호할 수 있도록 에지 장치, 데이터 센터, 퍼블릭 클라우드를 아우르는 통합된 데이터 관리 환경인 Data Fabric을 구축할 수 있습니다.

NetApp AI 솔루션은 AI 역량을 확장하는 데 필요한 툴을 제공합니다.

ONTAP^® AI는 AI 훈련 및 추론의 모든 측면을 가속합니다.
NVIDIA DGX Foundry와 NetApp은 직접 구축하는 데 어려움을 겪지 않고도 세계적 수준의 AI 개발을 제공합니다.
NetApp AI Control Plane은 MLOps와 NetApp 기술을 결합하여 데이터 관리를 단순화하고 실험을 원활히 수행할 수 있도록 돕습니다.
NetApp Data Ops Toolkit을 사용하면 AI에 필요한 대량의 데이터를 쉽게 관리할 수 있습니다.
NetApp Cloud Data Sense는 데이터를 검색, 매핑 및 분류하는 데 도움이 됩니다. 클라우드 또는 온프레미스에서 정형 또는 비정형을 포함하여 광범위하고 점점 증가하는 데이터 소스를 분석합니다.

NetApp AI Control Plane 및 Data Ops Toolkit을 채택하면 팀에서 데이터를 효율적이고 안전하게 관리하는 동시에, 설명 가능한 데이터의 필수 요소인 추적 기능과 재현 기능을 확보할 수 있습니다.

NetApp이 설명 가능한 AI에 중요한 데이터 관리 및 데이터 거버넌스를 제공하는 방법을 알아보려면 netapp.com/ko/artificial-intelligence/를 방문하십시오.

Mike McNamara

Mike McNamara는 NetApp의 제품 및 솔루션 마케팅 분야의 고위 경영진이며 25년이 넘는 데이터 관리 및 클라우드 스토리지 마케팅 경험을 보유하고 있습니다. 10년 전 NetApp에 입사하기에 앞서, McNamara는 Adaptec, Dell EMC, HPE에서 근무했습니다. McNamara는 자사 클라우드 스토리지 오퍼링 및 업계 최초의 클라우드 연결형 AI/ML 솔루션(NetApp), 유니파이드 스케일아웃 및 하이브리드 클라우드 스토리지 시스템 및 소프트웨어(NetApp), iSCSI 및 SAS 스토리지 시스템 및 소프트웨어(Adaptec), 파이버 채널 스토리지 시스템(EMC CLARiiON)의 출시를 이끈 핵심 팀 리더입니다.

McNamara는 Fibre Channel Industry Association에서 마케팅 의장을 역임한 경력 외에도 Ethernet Technology Summit Conference Advisory Board와 Ethernet Alliance에서 회원으로 활동하고 있으며, 업계 저널의 고정 기고자로 활동하며 여러 행사에서 연설을 맡기도 했습니다. McNamara는 또한 FriesenPress에서 'Scale-Out Storage - The Next Frontier in Enterprise Data Management'라는 책을 출간했으며, Kapos가 선정한 눈 여겨 볼 상위 50대 B2B 제품 마케터에 이름을 올렸습니다.

Mike McNamara의 모든 게시물 보기

다음 단계

블로그

클라우드, 온프레미스, 그리고 그 사이의 모든 영역에서 최신 트렌드와 발전에 대한 정보를 얻으세요. 모든 것이 실전에 적용되고, 거기에 더해 완벽한 마무리까지!

블로그 글 읽기

커뮤니티

다양한 공개 포럼을 탐색하여 질문을 게시하고 답변을 공유하며 자신에게 가장 중요한 모든 NetApp 기술에 대한 지식을 쌓아보세요.

토론 참여하기