롯데의 AI 보안 전략

롯데 AI 는 포괄적인 보안 체계를 구축하여, 안전하고 신뢰할 수 있는 AI 서비스를 제공합니다.

1. 상용 AI 보안 필터

상용 AI 서비스를 안전한 환경에서 이용할 수 있도록 자체 개발한 상용 AI 보안 필터는 사용자의 프롬프트 입력 후 AI 모델에게 전송하기 전에 적용되어 있습니다.

적대적 공격 탐지 및 차단: 악의적인 의도로 설계된 입력을 사전에 식별하고 차단합니다. 텍스트 프롬프트의 프롬프트 인젝션부터 이미지나 음성을 통한 우회 공격까지 다양한 형태의 적대적 공격을 실시간으로 탐지하여 모델을 보호합니다.

시스템 조작 방지: 모델의 원래 지시사항이나 시스템 프롬프트를 변경하려는 시도를 차단합니다. 대화 맥락을 악용한 컨텍스트 오염 공격이나 지시사항 우회 시도 등을 탐지하여 AI 시스템의 무결성을 유지합니다.

취약점 지속 보완: 레드팀 테스트를 통해 발견된 모델의 보안 취약점을 지속적으로 분석하고 보완합니다. 정기적인 보안 평가 체계를 통해 새로운 공격 패턴에 대응하고 모델의 안전성을 검증합니다.

유해 콘텐츠 생성 방지: 모든 AI 출력물에서 성인 콘텐츠, 폭력적 표현, 혐오 발언 등 부적절한 내용의 생성을 원천 차단합니다. 텍스트, 이미지, 음성 등 모든 형태의 콘텐츠에 일관된 안전 기준을 적용합니다.

사실성 및 신뢰성 확보: AI가 생성하는 정보의 정확성을 검증하는 사실 검증 메커니즘을 운영합니다. 할루시네이션을 완화하고, 불확실한 정보에 대해서는 명시적으로 표현하며, 생성된 내용의 신뢰도를 평가하여 사용자에게 제공합니다.

개인정보 보호: 개인정보가 포함된 데이터의 AI 처리 과정에서 프라이버시를 보호합니다. 개인식별정보의 무단 학습이나 생성을 방지하고, 개인정보 음성화나 시각화를 차단하여 개인의 프라이버시를 보장합니다.

디지털 워터마킹 기술: AI 생성 콘텐츠에 식별 가능한 워터마크를 자동으로 삽입합니다. 텍스트, 이미지, 음성 등 모든 형태의 AI 생성물에 적용되며, 생성 시점과 출처를 추적할 수 있도록 합니다.

Last updated 7 months ago