Einstein Discovery를 사용하여 모델의 편향성을 감지하고 방지하기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

민감한 범주와 범주를 선택하는 방법을 설명할 수 있습니다.
불평등 효과를 정의하고 해석할 수 있습니다.
프록시 변수를 정의하고 해석할 수 있습니다.
모델 카드에 대해 설명할 수 있습니다.

편향과 관련된 문제

Einstein Discovery를 통해 기업은 과거 데이터에서 패턴, 관계, 상관관계를 탐색할 수 있습니다. 머신 러닝과 인공 지능의 이점으로 Einstein은 미래의 결과를 예측할 수 있는데 비즈니스 사용자는 이를 통해 워크로드의 우선 순위를 정할뿐 아니라 데이터 기반의 의사 결정을 내릴 수도 있습니다.

이러한 예측 기능의 이점은 윤리적이고 책임감 있는 모델을 생산할 책임을 함께 불러옵니다. 편향된 과거 데이터에 기반한 모델은 편향된 예측으로 이어질 수 있습니다. 다행히 Einstein Discovery를 사용하면 데이터의 편향된 상태를 탐지하여 모델에서 데이터의 영향을 제거할 수 있습니다.

참고: 모델을 만들기 전에 AI 시스템에 편향성을 도입할 수 있습니다. 다양한 유형의 편향성과 AI 개발 시 고려해야 할 주의 사항에 대해 자세히 알아보려면 책임감을 갖고 인공 지능 만들기 뱃지를 확인하세요.

이 빠르게 살펴보기는 모델을 설계할 때 잠재적인 편항성을 식별하고 완화할 수 있는 Einstein Discovery의 보호 장치를 살펴봅니다. 예시는 지불 지연 가능성을 최소화하기 위해 과거 인보이스 데이터를 사용합니다. 이 예제에서는 우편번호 변수가 어떻게 의도치 않게 편항성을 모델에 도입게 되는지 살펴봅니다.

편향성을 분석할 민감 변수 선택하기

민감 변수를 사용할 때는 모델에서 개별 변수를 지정하여 해당 변수의 편향성을 분석할 수 있습니다. 예를 들어, 미국과 캐나다의 경우 연령, 인종 및 성별과 같이 법적으로 보호되는 계층과 관련된 변수는 사용에 제한을 받습니다. 고용 및 채용, 대출, 의료와 같은 규제 산업에서 이러한 계층에 대한 차별은 불법으로 간주됩니다.

경우에 따라 민감 변수는 인종이나 성별만큼 명확하지 않을 때가 있습니다. 예제에서 인보이스 결제 데이터 집합에는 경우에 따라 인종과 관련이 있는 우편번호가 포함됩니다. 1930년대의 특정 경계 지역 지정 관행은 미국의 주택 공급을 분리시켰고, 특정 우편번호의 인종적, 경제적 구성에 계속 영향을 미쳤습니다. 우편번호가 모델에 어떤 영향을 미치는지 알아보기 위해 우편번호를 민감 변수로 지정해 보겠습니다.

Analyze for bias(편항성 분석) 확인란을 선택하면 Einstein Discovery에서 선택한 변수와 데이터 집합의 다른 변수 간의 상관관계를 표시합니다.

사례 설정은 민감한 필드를 표시하기 위해 확인란을 강조 표시합니다. 우편번호에는 민감 변수임을 나타내는 노란색 뱃지가 있습니다.

확인란을 선택한 후 Create Model(모델 만들기)(이미 모델을 만든 경우는 Train Model(모델 훈련))을 클릭합니다. 우편번호 분석에 기반하여 Einstein Discovery는 불평등 효과와 프록시 변수에 대해 탐지한 내용을 보고합니다. 해당 용어가 무엇을 의미하는지 이야기해 보겠습니다.

불평등 효과 해석하기

Einstein Discovery가 데이터에서 불평등 효과를 감지한 경우, 이는 해당 데이터가 특정 인구 통계에 대한 편향된 관행을 반영하고 있음을 의미합니다. 예를 들어 데이터는 시작 급여에서 성별로 인한 불평등을 드러낼 수 있습니다. Einstein Discovery는 차별적이지 않은 항목에 대한 임계값을 계산하고 이와 상대되는 다른 집단의 점수를 책정합니다. 규제 산업은 80% 이상의 불평등 효과 계산을 필요로 합니다. 모델에서 탐지된 변수를 제거하면 더 책임감 있고 윤리적인 모델을 만들 수 있으며 공정하고 공평한 예측을 확보할 수 있습니다.

인보이스 데이터의 경우 Einstein Discovery는 참조 그룹을 인보이스를 늦게 지불하는 고객 비율이 가장 높은 우편번호로 식별합니다. 해당 값은 100%의 불리한 비율을 갖는 것으로 고려됩니다. Einstein Discovery는 각 우편번호에 대한 연체 가능성을 기준값과 비교하여 계산합니다. 예를 들어, 참조의 경우 우편 번호 A 고객의 75%가 청구서를 늦게 지불한다고 가정해 보겠습니다. 우편번호 B의 경우, 45%의 고객이 늦게 지불합니다. 우편번호 B의 불리한 비율을 계산하려면 45/75로 나눕니다. 이 비율은 60%입니다.

참조 그룹 외에도, 불평등 효과 그래프에서는 80% 임계값 미만인 우편번호를 강조 표시합니다. 해당 영역에서는 고객이 참조 그룹보다 연체료와 유의미한 상관관계를 보일 가능성이 현저히 낮습니다. 우편번호는 불평등 효과를 낳을 수 있습니다. 우편번호를 모델에 포함시키면 편항성이 생길 수 있습니다.

우편번호 변수에 대한 불평등 효과 정보.

프록시 변수 살펴보기

프록시 값은 민감 변수와 상관관계가 있는 데이터 집합의 다른 속성입니다. 여기서 Account Name(계정 이름)은 우편번호에 대한 90% 프록시입니다. 이러한 강력한 상관관계를 통해 Einstein Discovery가 늦게 지불할 가능성이 가장 높은 것으로 확인된 우편번호가 하나의 계정 이름과 연관된 우편번호로 인한 것으로 추론할 수 있습니다.

프록시 필드 및 우편번호 필드와의 상관관계를 나타내는 막대 그래프.

모델 카드로 예측 정확도 증대하기

예측을 위해 사용할 수 있는 옵션이 너무 많기 때문에 어떤 모델이 특정 컨텍스트에 가장 적합한지 구별하기 어려울 수 있습니다. 모델 카드는 교육 데이터와 관련된 의도된 용도, 설계 가정, 대상, 제한 사항 및 통계에 대한 중요한 세부 정보가 포함된 간략한 문서입니다. 투명성을 유지하면 사용자가 원하는 예측에 가장 적합한 모델을 선택할 수 있습니다.

Einstein Discovery는 모델의 문서 역할을 하는 모델 카드를 만듭니다. 이 카드는 여러분이 선택한 변수 및 이유와 같이 모델을 구축하는 데 들어간 결정을 강조하기 위해 작성할 수 있는 템플릿입니다. 템플릿에는 모델 품질 등급, 학습 데이터 집합의 결과 값 분포 및 결과와의 변수 상관관계와 같이 모델을 훈련시키는 데 사용되는 데이터와 관련된 모델 통계도 포함됩니다.

모델 카드를 만들려면 Model Manager(모델 관리자)에서 예측을 보고 +Model Card(+모델 카드)를 클릭합니다.

모델 관리자에서 강조 표시되어 있는 모델 카드 추가 버튼

템플릿에서 Primary Intended Use Cases(최초 의도된 사용 사례) 및 Ethical Considerations(윤리적 고려 사항)과 같이 사용자에게 표시할 필드를 작성한 다음 작업을 저장합니다. 예측에 여러 모델이 있는 경우 목록에서 모델을 선택하여 세부 정보를 표시합니다.

모델 카드 편집 모드에는 입력해야 하는 필수 필드와 선택 필드가 표시됩니다.

모델 카드의 Ethical Considerations(윤리적 고려 사항) 섹션에는 불평등 효과 그래프가 자동으로 포함됩니다. 추가 정보를 공유할 수 있는 공간도 마련되어 있습니다.

카드를 미리 보려면 Preview model card(모델 카드 미리보기)를 선택합니다. 완료된 필드만 표시되며 빈 필드는 생략됩니다.

편집 모드에서 모델 카드의 미리 보기. 윤리적 고려 사항 섹션을 표시합니다.

카드를 완료한 후 Save(저장)를 클릭합니다. 모델 카드를 보려면 Model Manager(모델 관리자)에서 모델을 선택합니다. + Edit Model Card(+ 모델 카드 편집)에서 View Model Card(모델 카드 보기)를 선택합니다.

모델 관리자에서 모델 카드 보기 버튼이 강조 표시됩니다.

여기 마지막 모델 카드가 있습니다.

사용 목적 및 교육 지표를 표시하는 모델 카드입니다.

결론

Einstein Discovery의 모델은 데이터를 포괄적으로 이해하는 데 도움을 주며, 비즈니스 결과뿐만 아니라 이에 영향을 주는 정치적 및 사회적 구조를 다룹니다. 민감 변수, 불평등 효과, 프록시 변수 및 모델 카드를 사용하여 Einstein Discovery를 사용하면 편항성에 대한 사전 예방적 접근 방식을 사용하여 정확하고 공정한 모델을 구축할 수 있습니다.

도움말 검색