데이터와 알고리즘에서 편향 제거

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

데이터 집합에서 제외되거나 실제보다 비율이 너무 높은 요인을 식별할 수 있습니다.
상호작용 편향을 줄이기 위한 '사전 부검'의 이점에 대해 설명할 수 있습니다.
새로운 편향이 결과에 유입되지 않도록 하기 위한 계획을 세울 수 있습니다.

편향 위험 관리

AI를 사용하여 작업할 때 고려해야 하는 여러 가지 종류의 편향에 대해 얘기를 나눴습니다. 이제 어려운 부분으로 넘어가서 이런 편향 때문에 발생하는 위험을 방지 또는 관리하는 방법에 대해 알아보겠습니다. 교육 데이터에서 마법처럼 편향을 제거할 수는 없습니다. 배제를 없애는 것은 사회적 문제이자 기술적 문제이며, 하나의 팀으로서 데이터를 수정함은 물론 제품을 계획하고 실행하는 방법에 미리 주의를 기울여서 문제를 해결할 수 있습니다.

사전 부검 진행

첫 번째 유닛에서 알아봤듯이, 제품을 책임감 있게 만들려면 윤리적인 문화부터 조성해야 합니다. 워크플로에 사전 부검을 포함시키면 이렇게 하는 한 가지 방법이 됩니다.

사전 부검은 사후 부검의 반대말로, 문제가 발생하기 전에 문제를 찾을 수 있는 기회입니다. 종종 팀원들은 프로젝트 계획 단계에 의구심에 대해 얘기하기를 주저할 수 있습니다. AI 같은 중요한 분야에서는 걱정이 있을 경우 팀과 함께 솔직히 얘기하면서 분위기가 일시적으로 나빠질 수 있는 위험도 감수해야 합니다. 이런 회의를 하면 기대 수준을 신중하고 현실적으로 정함으로써 프로젝트 초기의 열정 때문에 앞뒤를 가리지 않고 추진하려는 욕구를 억제할 수 있습니다.

데이터 집합에서 배제되거나 실제보다 비율이 너무 높은 요인 식별

데이터 집합에 반영되는 뿌리 깊은 사회적, 문화적 요인을 깊이 고려해야 합니다. 이전 유닛에서 자세히 알아봤듯이, 데이터 집합 단계에 존재하는 편향은 AI의 추천 시스템에 영향을 미치고 특정 집단의 비율이 실제보다 너무 높거나 낮아지는 결과를 초래할 수 있습니다.

기술적인 관점에서는 다음과 같은 몇 가지 방법으로 데이터의 편향 문제를 해결할 수 있습니다. 물론 아래의 기법에 모든 기법이 포함되어 있지는 않습니다.

문제: 다수 집단에 적용되는 통계 패턴이 소수 집단에 유효하지 않을 수 있습니다.

해결 방법: 획일적인 알고리즘이 아닌 다른 집단마다 다른 알고리즘을 만드는 방법을 고려합니다.

문제: 특정한 사람들이 데이터 집합에서 배제되어 사용자들에게 영향을 미칩니다. 상황과 문화는 중요하지만, 그 영향을 데이터에서 확인하기는 불가능할 수 있습니다.

해결 방법: 모델이 높은 신뢰도로 예측하지만 실제로는 잘못된 예측인 경우에 발생하는 오류에 주의합니다. 연구 학자들은 이 오류를 알려지지 않은 불확실한 일이라고 합니다. 알려지지 않은 불확실한 일은 모델이 낮은 신뢰도로 예측하는 잘못된 예측인 알려진 불확실한 일과 상반됩니다. 모델이 컨텐츠를 생성할 때와 마찬가지로, 요청에 대해 완전히 사실과 다른 정보를 생성할 수 있습니다.

주기적으로 교육 데이터 평가

전에도 말씀드렸지만, AI 시스템 개발은 교육 데이터 단계에서 시작됩니다. 데이터 품질 문제 해결에는 프로세스에서 최대한 조기에 세심한 주의를 기울여야 합니다. CRM Analytics 또는 다른 데이터 준비 도구에서 극단, 중복, 특이치 및 이중화 문제를 해결해야 합니다.

모델을 출시하기 전에 시험판 평가를 진행하여 시스템의 편향된 예측 또는 판단이 실제 세계에서 사람들에게 영향을 미치지 않도록 해야 합니다. 모델이 피해를 초래하지 않도록 테스트되었는지 확인해야 합니다. 출시 후에 예기치 못한 문제가 발생하지 않도록 제품이 여러 다른 커뮤니티에서 올바르게 작동할 것임을 보장할 수 있어야 합니다.

모델 출시 후에 알고리즘이 학습에 사용하는 데이터와 시스템이 추천하는 사항을 주기적으로 확인하는 시스템을 개발하세요. 데이터의 수명이 제한되어 있다고 생각하세요. 데이터가 무한히 모든 사람에게 적용되지는 않을 것입니다. 기술적인 측면에서 보면, 데이터가 시스템에 더 많이 유입될수록 알고리즘이 더 많이 학습합니다. 이 경우 시스템이 제품 개발자들이 예상하지 못했거나 원치 않았던 패턴을 식별하고 반복할 수 있습니다.

사회적인 측면에서 보면, 문화적 가치관은 시간에 따라 변합니다. 알고리즘의 출력물이 그것을 사용하는 커뮤니티의 가치 체계에 더 이상 적합하지 않을 수 있습니다. 실수를 시정하기 위한 유료 커뮤니티 심의 과정을 진행하고 제품에 개인 및 사용자가 자신에 대한 데이터 수집을 거부하거나 해당 데이터를 수정할 수 있는 메커니즘을 만드는 등의 두 가지 방법으로 이런 문제를 해결할 수 있습니다. 커뮤니티 심의 과정에는 개발자가 개발하는 알고리즘 시스템에 영향을 받을 수 있는 커뮤니티 구성원들이 포함되어야 합니다. 조직의 목표를 달성하기 위해 시스템을 구현, 관리 및 사용할 사람들과 논의하는 시간도 가져야 합니다. 커뮤니티 심의 과정을 진행하고 도구가 사용될 상황에 대해 이해하기 위한 사용자 조사를 실시하는 데 사용할 수 있는 방법에 대해 자세히 알아보려면 UX 조사 기초로 이동하세요.

결론

AI는 사람이 발견할 수 없는 종양을 발견하고 가족이 알기 전에 알츠하이머를 진단하거나 원주민 언어를 보존하는 등의 좋은 일에 사용될 수 있습니다. 이 모듈에서는 AI 시스템의 능력과 불투명성에 대해 알아보았습니다. 사회에 해악보다 유익이 더 많은 AI를 만들려면 위험을 인식하고 AI 시스템이 책임 있게 디자인되고 개발되고 사용되도록 행동해야 합니다.

기술 전문가인 우리가 양심적이고 신중하게 접근해도 예기치 못한 문제가 발생할 수 있습니다. 데이터 집합 및 모델과 그것이 사용되는 문화적 상황의 상호작용을 항상 예측할 수는 없습니다. 데이터 집합에는 종종 알지 못하는 편향이 포함되어 있고, 우리는 교육 데이터와 모델의 예측을 평가 및 진단하여 유해한 결과가 초래되지 않도록 해야 할 책임이 있습니다.

윤리적인 AI 시스템 개발은 사회기술적인 과정입니다. 이 시스템을 기술적 구현의 관점에서 볼 뿐만 아니라 여러 팀에서 시스템을 개발하는 방법과 시스템이 사용될 사회적 상황도 고려해야 합니다. 나아가 프로세스에 누가 참여하는지도 평가해야 합니다. 성별, 인종, 민족성 및 나이의 비율을 실제로 비교하면 어떤가요? AI 제품을 만드는 사람들과 이런 시스템으로 인해 발생할 위험이 있는 편향은 서로 연결되어 있습니다.

안전하고 사회에 유익한 AI를 실현하기 위해서는 사람이 AI의 중심에 있다는 사실을 기억해야 합니다. AI는 도구이며, 이 도구를 어떻게 사용할지는 사람이 선택합니다. 역할이 무엇이든, 한 사람의 작은 결정이 심각하고 영구적인 결과를 초래할 수 있습니다. Salesforce는 성공하면서 좋은 일을 할 수 있다는 강한 믿음을 갖고 있습니다. 타인에게 피해를 주지 않으면서 이익을 창출할 수 있고, 실제로 그 과정에서 긍정적인 영향을 미칠 수 있습니다.

도움말 검색

더 알아보기