책임감 있고 윤리적인 에이전트 구현하기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 윤리 레드 티밍 및 테스트 전략을 구현합니다.
- 조직을 위한 기본 원칙과 표준을 개발합니다.
Trailcast
이 모듈의 오디오 레코딩을 들어보려면 아래 플레이어를 사용하세요. 이 레코딩을 모두 들은 후 각 유닛으로 돌아와서 리소스를 확인하고 관련 평가를 완료하는 것을 잊지 마세요.
책임감 있는 에이전트를 위한 기본 원칙
AI를 도입하는 많은 조직은 AI 전략을 개발하기 전에 책임감 있는 AI 원칙을 세우는 것이 도움이 된다고 생각합니다. 일련의 AI 원칙을 통해 기업은 AI에 대한 입장을 명확하게 하고 기술이 직원, 고객, 사회 전반에 미치는 영향을 고려할 수 있습니다. 비즈니스 요구 사항과 사용 사례에 맞게 자체 에이전트를 개발하는 데 이 가이드라인을 참고할 수 있습니다. 자체 사용 사례에서 안전이 무엇을 의미하는지 생각해 보세요. 해당 산업에 특정한 안전 요구 사항을 필요로 할 수 있는 법률, 규칙, 규정이 있나요?
신뢰할 수 있는 AI를 개발하기 위한 Salesforce의 기본 원칙을 확인해 보세요. 내용을 다시 한 번 살펴보고, 자체적인 기본 원칙을 수립해 보세요.
- 정확성
- 안전성
- 정직성
- 역량 강화
- 지속 가능성
레드 티밍 및 테스트 전략
레드 팀은 일반적으로 보안 및 AI 윤리 전문가로 구성된 전문가 그룹으로, 바람직하지 않은 출력이나 결과와 관련된 보안 및 기타 문제를 발견하고 수정하기 위해 조직의 시스템에 침투를 시도합니다.
레드 티밍은 'AI 시스템과 제품에서 유해한 기능, 출력 또는 인프라 위협을 식별하기 위해 수행하는 구조화된 프로세스'로 정의내릴 수 있습니다.
테스트는 안전을 보장하고 의도치 않은 결과를 방지하는 데 있어 핵심적인 요소입니다. 다음은 고려해야 할 몇 가지 주요 사항입니다.
- 테스트하려는 피해 유형을 파악합니다. 비즈니스 목표 및 사용 사례에 부합하는 테스트 목표와 목적을 설정합니다.
- 이러한 테스트를 수행할 팀을 구성합니다. 적대적 사고와 테스트할 공격 전략 수립에 능숙하고 경험이 풍부한 내부 및 외부 전문가를 모두 활용할 수 있습니다.
- AI와 에이전트를 둘러싼 기술 발전과 적대적 사고의 진화에 발맞추기 위해 정기적으로 테스트합니다.
다음은 Salesforce에서 레드 티밍에 접근하는 방식입니다. Salesforce는 AI 제품의 안전성을 높이기 위해 수동 및 자동 레드 티밍 방식을 모두 사용합니다. 악용, 프롬프트 주입과 같은 의도적인 무결성 공격 또는 우발적인 오용을 테스트합니다. Salesforce는 악의적인 사용이나 선의의 오용이 발생하더라도 시스템이 안전하도록 유해성, 편향성, 보안을 대상으로 AI 레드 티밍을 수행합니다.
테스트 유형 |
설명 |
|---|---|
수동 방식 |
수동 테스트는 자동화된 시스템이 놓칠 수 있는 복잡한 공격 전략을 설계하기 위해 실제 사람인 테스트 수행자의 창의성, 경험, 전문 지식을 활용합니다. 또한 테스트 수행자는 특정 환경, 대상, 목표에 맞게 접근 방식을 조정할 수 있어 보다 현실적이고 맞춤화된 공격을 수행할 수 있습니다. |
자동화 방식 |
자동화된 테스트는 사람이 주도하는 테스트와 평가를 대체하는 것이 아니라 이를 보완하기 위한 목적으로 사용됩니다. 이러한 유형의 테스트에서는 스크립트, 알고리즘, 소프트웨어 도구를 사용하여 짧은 시간 안에 많은 공격이나 위협을 시뮬레이션합니다. 또한 위험의 발생도를 확인하여 시스템의 위험 표면을 탐색합니다. |
Salesforce는 에이전트의 고유한 위험과 사용 사례를 해결하기 위해 외부 및 내부 전문가와 협력하여 침투 테스트를 수행합니다.
보다 포괄적인 개요를 확인하려면 Salesforce의 책임감 있는 레드 티밍 블로그 기사를 참고하세요.
모델 벤치마킹
AI 모델을 업계 표준과 비교하여 최고 수준의 성능을 발휘하는지 확인할 수 있습니다. Salesforce는 이를 한 단계 더 발전시켜 최초의 CRM용 LLM 벤치마크를 공개했습니다. 이 벤치마크는 AI 시스템의 성능을 파악하는 데 도움이 되는 중요한 지표를 공유하며, 고객에게도 유용한 정보를 제공합니다.
윤리 테스트의 미래
Salesforce의 테스트 및 평가 팀은 AI 제품의 신뢰와 안전성을 보장하는 데 전념하고 있습니다. 엄격한 테스트 프로세스, 선제적인 레드 티밍, 포괄적인 벤치마킹을 통해 AI 무결성에 대한 최고 수준의 기준을 유지하고자 합니다. Salesforce는 지속적인 개선과 혁신 문화를 조성함으로써 고객이 신뢰할 수 있는 AI 솔루션을 제공하는 데 최선을 다하고 있습니다.
수용 가능한 AI 사용 정책
Salesforce는 업계 표준을 따르고 파트너와 공통된 기준을 유지하며 고객을 보호하기 위해 수용 가능한 AI 사용 정책(AI AUP)을 공개했습니다. 보다 자세한 내용은 Salseforce 수용 가능한 AI 사용 정책에서 알아보실 수 있습니다.
Salesforce AI AUP는 Salesforce 비즈니스 전략의 핵심 요소이기 때문에, 발표 전에 윤리적 사용 자문 위원회 산하 소위원회, 파트너, 업계 리더, 개발자들과 충분한 협의를 거쳤습니다. 이를 통해 책임감 있는 혁신을 실현하고, 제품 개발 과정에서 제품을 신뢰하는 사용자들을 보호하고자 합니다. Salesforce AI AUP는 Salesforce 제품에서의 AI 사용에 초점을 둔 시작점에 지나지 않습니다. 회사의 윤리적 가치에 부합하는 방식으로 AI를 사용할 수 있도록 반드시 자체적인 AI 규칙이나 원칙을 마련하는 것도 고려하세요.
에이전트 보안 표준
조직 내에서 에이전트의 액세스 제어, 데이터 보호, 책임감 있는 사용을 위한 보안 표준을 수립할 때 다음과 같은 보안 조치를 고려하세요.
범주 |
유형 |
권장 사항 |
|---|---|---|
액세스 제어 |
엄격한 액세스 제어 |
업무상 알 필요가 있으며 비즈니스 요구 사항을 충족하는 사용자만 생성형 AI 모델 및 서비스와 상호 작용할 수 있도록 적절한 액세스 제어를 구현하세요. 에이전트를 설계할 때 에이전트의 전체 범위와 가능한 작업을 종합적으로 식별하여 적절한 실행 컨텍스트를 결정하세요. 중요한 작업의 경우, 세분화된 액세스 제어를 구현하고 잠재적인 보안 위험을 최소화하기 위해 개별 서비스 사용자 컨텍스트 내에서 에이전트를 실행해 보세요. |
모니터링 및 감사 |
무단 사용을 탐지하고 방지하기 위해 생성형 AI 모델과 서비스에 대한 액세스에 대해 알림을 설정하고 정기적으로 모니터링 및 감사를 수행하세요. |
|
데이터 보호 |
무결성 제어 |
내부 데이터와 고객 데이터 모두에 대해 무결성 제어 조치를 추가하세요. 애플리케이션 보안, 백업 및 복원, 기본 구성에 대한 적절한 규칙을 따르세요. |
책임감 있는 사용 |
고객 데이터 처리 |
고객 개인정보를 올바르게 처리하기 위한 조치를 취하세요. 정당한 목적에 한해서만 데이터를 수집하고 사용하며, 데이터 주체에게 적절한 고지를 제공하고 동의를 구해야 합니다. |
고객 투명성 |
고객이 명확히 인지하지 못하는 추론을 서비스가 수행하지 않도록 하세요. |
|
콘텐츠 조정 |
생성형 AI 서비스에 콘텐츠 조정 필터를 제공하고, 가능한 경우 기본 설정으로 제공하세요. |
|
윤리적인 사용 |
생성형 AI가 개인정보보호와 보안을 존중하는 방식으로 사용될 수 있게 윤리적 사용 지침을 수립하세요. |
이론에서 실무로
이 모듈에서는 신뢰할 수 있는 에이전트 AI와 Salesforce가 이를 개발하는 방식을 폭넓게 다루었습니다. 이제 예기치 않은 동작, 편향, 데이터 유출과 같은 에이전트 AI의 주요 위험을 이해하셨을 것입니다. 또한 AI 에이전트가 안전하고 윤리적인 범위 내에서 작동하게 만드는 구체적인 가드레일과 신뢰 패턴도 알아보았습니다. 윤리적 레드 티밍, 테스트, 수용 가능한 AI 사용 정책 수립을 통해 조직 내에서 책임감 있는 AI 관행을 확립하는 것이 중요하다는 점도 이해했습니다.
이러한 이해를 바탕으로, 효과적이며 신뢰할 수 있고 책임감 있는 AI 에이전트를 구축하는 데 한 걸음 더 다가섰습니다.
리소스