롯데의 AI 보안 전략

롯데 AI 는 포괄적인 보안 체계를 구축하여, 안전하고 신뢰할 수 있는 AI 서비스를 제공합니다.

1. 상용 AI 보안 필터

상용 AI 서비스를 안전한 환경에서 이용할 수 있도록 자체 개발한 상용 AI 보안 필터는 사용자의 프롬프트 입력 후 AI 모델에게 전송하기 전에 적용되어 있습니다.

  • NER 필터: 개인정보(계좌번호, 아이디, 이메일, 전화번호, 주민번호 등)를 탐지 및 차단합니다.

  • 키워드 기반 필터: 금칙어를 지정해 비즈니스 상 민감정보(비밀, 대외비 등)를 탐지 및 차단합니다.

  • 소스코드 검출 필터: 소스코드와 같은 내부 지식 자산이 유출되지 않도록 개발 언어 소스코드를 탐지 및 차단합니다.

2. AI 모델 내부 보안 기술

1) 공격 방어 기술

적대적 공격 탐지 및 차단: 악의적인 의도로 설계된 입력을 사전에 식별하고 차단합니다. 텍스트 프롬프트의 프롬프트 인젝션부터 이미지나 음성을 통한 우회 공격까지 다양한 형태의 적대적 공격을 실시간으로 탐지하여 모델을 보호합니다.

시스템 조작 방지: 모델의 원래 지시사항이나 시스템 프롬프트를 변경하려는 시도를 차단합니다. 대화 맥락을 악용한 컨텍스트 오염 공격이나 지시사항 우회 시도 등을 탐지하여 AI 시스템의 무결성을 유지합니다.

취약점 지속 보완: 레드팀 테스트를 통해 발견된 모델의 보안 취약점을 지속적으로 분석하고 보완합니다. 정기적인 보안 평가 체계를 통해 새로운 공격 패턴에 대응하고 모델의 안전성을 검증합니다.

2) 컨텐츠 품질

유해 콘텐츠 생성 방지: 모든 AI 출력물에서 성인 콘텐츠, 폭력적 표현, 혐오 발언 등 부적절한 내용의 생성을 원천 차단합니다. 텍스트, 이미지, 음성 등 모든 형태의 콘텐츠에 일관된 안전 기준을 적용합니다.

사실성 및 신뢰성 확보: AI가 생성하는 정보의 정확성을 검증하는 사실 검증 메커니즘을 운영합니다. 할루시네이션을 완화하고, 불확실한 정보에 대해서는 명시적으로 표현하며, 생성된 내용의 신뢰도를 평가하여 사용자에게 제공합니다.

개인정보 보호: 개인정보가 포함된 데이터의 AI 처리 과정에서 프라이버시를 보호합니다. 개인식별정보의 무단 학습이나 생성을 방지하고, 개인정보 음성화나 시각화를 차단하여 개인의 프라이버시를 보장합니다.

3) 출처 추적 및 저작권 보호

디지털 워터마킹 기술: AI 생성 콘텐츠에 식별 가능한 워터마크를 자동으로 삽입합니다. 텍스트, 이미지, 음성 등 모든 형태의 AI 생성물에 적용되며, 생성 시점과 출처를 추적할 수 있도록 합니다.

3. 통합 모니터링

  • 다층 보안 체계: 입력-처리-출력 단계별 보안 검증

  • 이상 행위 탐지: 비정상적인 사용 패턴 모니터링

  • 규정 준수: 개인정보보호법, 정보보안 관련 법규 준수를 위한 로그 관리

Last updated