기업은 인공 지능(AI) 역량을 확대함에 따라 중요하고 종종 어려운 문제를 해결해야 합니다. AI가 책임감 있게 사용되고 있는지, AI의 결과에 관해 설명할 수 있는지 확인해야 합니다. 데이터가 모든 AI 프로세스의 토대가 되므로 이 블로그 게시물 시리즈에서는 데이터, 데이터 관리, 데이터 거버넌스의 관점에서 중요한 AI 관련 질문을 살펴보겠습니다. 이 두 번째 게시물에서 주로 다루는 내용은 설명 가능한 AI입니다. 이 시리즈의 마지막 게시물에서는 연합 학습에 관해 살펴봅니다.
이 시리즈의 첫 번째 게시물에서는 책임감 있고 윤리적인 AI의 4가지 원칙인 공정성, 개인 정보 보호, 보안 및 해석 가능성(설명 가능성)에 관해 다루었습니다. AI 모델은 현재 우리 삶의 모든 측면에 내재되어 채용 대상에서 대출 승인 대상까지 중요한 결정에 영향을 미칩니다. 설명 가능한 인공 지능(XAI)은 AI 모델이 의사 결정에 도달하는 방법을 이해하고 오류의 원인을 파악하는 데 있어 매우 중요해졌습니다.
이 게시물에서는 설명 가능한 AI가 중요한 이유, 관련 과제 및 데이터의 주요 역할 등에 관해 살펴봅니다.
먼저 XAI가 무엇이며 왜 필요한지 이해하는 것이 중요합니다. AI 알고리즘은 입력을 받아들여 출력을 제공하지만, 내부 작동 방식을 이해할 수 없는 '블랙박스'로 작동하는 경우가 많습니다. XAI의 목표는 알고리즘의 출력에 대한 이론적 근거를 인간이 이해할 수 있게 설명하는 것입니다.
예를 들어, 대부분 AI 알고리즘에서는 알고리즘이 방대한 훈련 데이터를 기반으로 패턴을 식별하는 방법을 학습하는 딥 러닝을 사용합니다. 딥 러닝은 우리 뇌의 연결 방식을 모방한 신경망 접근 방식입니다. 사람의 사고 과정과 마찬가지로, 딥 러닝 알고리즘이 어떻게 예측이나 결정에 도달했는지 확인하기가 어렵거나 불가능할 수 있습니다.
신용 점수 및 대출 승인과 같은 고용 및 금융 서비스 사용 사례에 대한 결정은 중요하며 설명할 가치가 있습니다. 이러한 알고리즘 중 하나가 잘못된 추천을 한다 해도 적어도 지금 당장은 신체적으로 해를 입을 사람은 없습니다. 그러나 그 결과가 훨씬 더 심각한 경우도 많이 있습니다.
딥 러닝 알고리즘은 암 진단과 같은 의료 사용 사례에서 점점 더 중요해지고 있으며, 이에 따라 의사가 알고리즘 진단의 기반을 이해하는 것이 중요합니다. 거짓 음성은 환자가 생명을 구하는 치료를 받지 못함을 의미할 수 있습니다. 반면에 거짓 양성으로 인해 환자가 필요하지 않은데도 비용이 많이 들고 침습적인 치료를 받게 될 수 있습니다. 증가하는 AI의 이점을 최대한 활용하려는 방사선 전문의와 종양 전문의에게 일정 수준의 설명은 필수적입니다.
미국 상무부 산하 국립표준연구소(NIST)는 XAI를 구성하는 개념을 확장하기 위해 설명 가능한 인공 지능의 4가지 원칙을 정의합니다.
다음은 이러한 원칙이 적용되는 방식의 예입니다.
설명
NIST는 5가지 유형의 설명을 정의합니다.
유의미성
사용자가 제공된 설명을 이해할 때 유의미성 원칙이 충족됩니다. 특정 AI 알고리즘에 관해 설명이 필요한 다양한 유형의 사용자가 있을 수 있습니다. 자율주행차의 예에서 'AI가 도로 속의 비닐 봉투를 바위로 분류하여 부딪히지 않도록 조치를 취했습니다'와 같이 자동차 운전자를 만족시키는 설명은 문제를 해결하려는 AI 개발자의 요구는 충족하지 못할 것입니다. 개발자의 입장에서는 비닐 봉투가 잘못 분류된 이유를 이해해야 합니다.
설명 정확성
설명 정확성은 출력 정확성과는 별개입니다. AI 알고리즘은 어떻게 출력에 도달했는지 정확히 설명해야 합니다. 대출 승인 알고리즘이 실제로 신청자의 우편 번호를 기반으로 결정되었음에도 불구하고 신청자의 소득과 부채를 기반으로 결정했다고 설명한다면 그 설명은 정확하지 않습니다.
지식 제한
AI 시스템은 2가지 방법으로 지식 제한에 도달할 수 있습니다. 입력한 내용이 시스템 전문 지식을 벗어날 수 있습니다. NIST는 조류 종을 분류하기 위해 구축된 시스템의 예를 사용합니다. 사과를 사진으로 제공하면 시스템은 입력이 새가 아니라고 설명해야 합니다. 또는 시스템에 흐릿한 사진을 제시하면 이미지에서 새를 식별할 수 없거나 식별 정보의 신뢰도가 매우 낮다고 보고해야 합니다.
이러한 원칙은 XAI에서 예상되는 출력을 정의하는 데 도움이 되지만, 해당 출력에 도달하는 방법은 안내하지 않습니다. XAI를 3가지 범주로 세분화하는 것이 유용할 수 있습니다.
특히, 신경망의 경우 '설명 가능한 데이터'는 적어도 원칙적으로는 달성하기가 쉬운 유일한 범주입니다. 현재 진행 중인 많은 연구는 설명 가능한 예측과 알고리즘을 달성하는 방법에 중점을 두고 있습니다. 설명 가능성에 대한 현재 접근 방식은 2가지입니다.
설명 가능한 모델을 '화이트박스' 모델이라고도 합니다. 최근 블로그에서 언급한 바와 같이, '설명 가능한 화이트박스 AI를 통해 사용자는 의사 결정의 근거를 이해할 수 있어 비즈니스 환경에서 그 인기가 날로 높아지고 있습니다. 이러한 모델은 블랙박스 알고리즘만큼 기술적으로 인상적이지 않습니다.' 설명 가능한 기술에는 의사결정 트리, 베이지안 네트워크, 희소 선형 모델 등이 포함됩니다.
연구자들은 또한 지식 그래프와 기타 그래프 관련 기술을 통합하는 등 블랙박스 모델을 더 설명하기 쉽게 만드는 방법을 찾고 있습니다.
XAI에서 가장 달성하기 쉬운 범주는 설명 가능한 데이터입니다. 그러나 AI 알고리즘을 훈련하는 데 사용될 수 있는 엄청난 양의 데이터를 고려할 때 '달성 가능'은 말처럼 쉽지 않습니다. GPT-3 자연어 알고리즘이 극단적인 예입니다. 이 모델은 인간의 언어를 모방할 수 있지만, 훈련 중에 인터넷에서 수많은 유해한 콘텐츠를 습득하기도 했습니다.
Google에서 언급했듯이, 'AI 시스템은 기본 훈련 데이터 및 훈련 프로세스뿐만 아니라 AI 모델을 통해 가장 잘 이해됩니다.' 이러한 이해를 위해서는 훈련된 AI 모델을 훈련에 사용된 정확한 데이터 세트에 매핑하는 능력과 모델 버전이 훈련된 지 수년이 지났더라도 해당 데이터를 면밀히 검사할 수 있는 능력이 필요합니다.
모델의 설명 가능성을 높이는 가장 쉬운 방법 중 하나는 모델을 훈련하는 데 사용되는 데이터에 세심한 주의를 기울이는 것입니다. 설계 단계에서 팀은 알고리즘을 훈련할 데이터의 출처가 어디인지, 해당 데이터가 존재한다고 가정할 때 합법적이고 윤리적으로 획득되었는지 여부, 데이터에 편견이 포함되어 있는지 여부, 이러한 편견을 완화하기 위해 무엇을 할 수 있는지 결정해야 합니다. 이는 과소평가되어서는 안 되는 중대한 업무입니다. 기업의 67%가 AI를 위해 20개 이상의 데이터 소스를 활용하고 있습니다.
결과와 관련이 없거나 관련이 없어야 하는 데이터를 신중하게 제외하는 것도 중요합니다. 앞서 언급했듯이, 대출 승인 알고리즘은 신청자의 우편 번호를 기반으로 결정을 내릴 가능성이 있습니다. 알고리즘의 출력이 관련성이 없는 요소(종종 인종을 나타내는 우편 번호 등)를 기반으로 하지 않도록 하는 가장 좋은 방법은 훈련 세트나 입력 데이터에 해당 데이터를 포함하지 않는 것입니다.
설명 가능한 데이터는 XAI에 필수적이므로 데이터 관리 및 데이터 거버넌스에 대한 모범 사례를 구축해야 합니다. 이러한 모범 사례에는 운영하는 각 AI 모델의 각 버전을 훈련하는 데 사용되는 데이터 세트에 대한 완벽한 추적 기능이 포함됩니다.
NetApp은 기업이 데이터에서 더 많은 것을 얻을 수 있도록 전문적으로 지원합니다. NetApp은 온프레미스와 클라우드를 포함한 모든 위치의 데이터를 관리할 수 있도록 지원합니다. NetApp은 이 방법으로 데이터 액세스, 보호 및 비용 최적화를 달성합니다.
NetApp® AI 전문가가 고객과 협력하여 AI 데이터를 효율적으로 수집, 저장, 보호할 수 있도록 에지 장치, 데이터 센터, 퍼블릭 클라우드를 아우르는 통합된 데이터 관리 환경인 Data Fabric을 구축할 수 있습니다.
NetApp AI 솔루션은 AI 역량을 확장하는 데 필요한 툴을 제공합니다.
NetApp AI Control Plane 및 Data Ops Toolkit을 채택하면 팀에서 데이터를 효율적이고 안전하게 관리하는 동시에, 설명 가능한 데이터의 필수 요소인 추적 기능과 재현 기능을 확보할 수 있습니다.
NetApp이 설명 가능한 AI에 중요한 데이터 관리 및 데이터 거버넌스를 제공하는 방법을 알아보려면 netapp.com/ko/artificial-intelligence/를 방문하십시오.
Mike McNamara는 NetApp의 제품 및 솔루션 마케팅 분야의 고위 경영진이며 25년이 넘는 데이터 관리 및 클라우드 스토리지 마케팅 경험을 보유하고 있습니다. 10년 전 NetApp에 입사하기에 앞서, McNamara는 Adaptec, Dell EMC, HPE에서 근무했습니다. McNamara는 자사 클라우드 스토리지 오퍼링 및 업계 최초의 클라우드 연결형 AI/ML 솔루션(NetApp), 유니파이드 스케일아웃 및 하이브리드 클라우드 스토리지 시스템 및 소프트웨어(NetApp), iSCSI 및 SAS 스토리지 시스템 및 소프트웨어(Adaptec), 파이버 채널 스토리지 시스템(EMC CLARiiON)의 출시를 이끈 핵심 팀 리더입니다.
McNamara는 Fibre Channel Industry Association에서 마케팅 의장을 역임한 경력 외에도 Ethernet Technology Summit Conference Advisory Board와 Ethernet Alliance에서 회원으로 활동하고 있으며, 업계 저널의 고정 기고자로 활동하며 여러 행사에서 연설을 맡기도 했습니다. McNamara는 또한 FriesenPress에서 'Scale-Out Storage - The Next Frontier in Enterprise Data Management'라는 책을 출간했으며, Kapos가 선정한 눈 여겨 볼 상위 50대 B2B 제품 마케터에 이름을 올렸습니다.