Welaunch·

에임인텔리전스, ‘컴퓨터 사용 AI 에이전트 보안’ 실증 논문 ACL 2025 공식 채택
- 소식발행일
- 관심
- 9558
- 태그
- 사이트
- https://aim-intelligence.com
신청
구독
공유
신청
AI 보안 전문기업 에임인텔리전스(대표 유상윤)가 자사의 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 통해 상용 AI 모델의 보안 취약성을 입증한 연구 결과를 발표했다. 이 연구는 국제자연어처리학회(ACL) 2025 Industry Track에 공식 채택됐다.
SUDO는 AI가 위험한 명령을 처음에는 거부하지만, 프롬프트 조정과 화면 정보를 활용하여 결국 명령을 실행하게 만드는 공격 기법을 실험했다. 실험에서는 다양한 AI 에이전트를 대상으로 공격을 진행했으며, 그 중 Anthropic의 ‘Claude for Computer Use’는 41.33%의 공격 성공률을 기록했다. 이는 "상용 AI는 안전하다"는 통념을 깨는 성과로, AI 시스템의 구조적 보안 취약성을 명확히 드러냈다.
SUDO는 명령 위장, 실행 절차 생성, 재독성화의 세 단계를 통해 AI가 거부하는 명령을 점진적으로 실행하도록 유도한다. 공격 프레임워크는 실패 응답을 분석해 공격 전략을 지속적으로 개선하고 있으며, 최신 비전-언어 모델(VLM)을 활용할수록 공격 성공률이 높아진다. 실험에서는 GPT-4o, Claude 3.7, Gemini 2.0 등 여러 상용 AI 모델을 대상으로 50개 이상의 실제 난이도 시나리오를 투입하여 24%의 첫 공격 성공률을 기록하고, 반복 학습을 통해 GPT-4.5는 41.33%로 성공률을 높였다.
ACL 2025 리뷰어들은 이 논문을 "이론적 가정이 아닌 실제 시스템 기반의 반복 실험을 통해 AI 보안 취약성을 실질적으로 조명한 연구"로 평가하며, "반복 학습 기반의 정교한 공격 전략이 현실 세계의 위협 진화 과정을 반영하고 있다"고 언급했다.
에임인텔리전스는 이번 연구와 함께 AI 보안 정량 평가를 위한 공식 벤치마크 데이터셋인 ‘SUDO Dataset’을 공개했다. 이 데이터셋은 시스템 보안, 사회적 위험, 법적 리스크, 콘텐츠 안전 등 4개 대분류와 12개 세부 항목으로 구성되어 있으며, 다양한 AI 모델과 도메인에서 범용적으로 적용 가능하다.
유상윤 대표는 "AI가 '못 한다'고 답한다고 안심할 수 있는 시대는 끝났다"며, "행위 기반 검증과 반복 침투 테스트가 없는 보안은 사실상 무장해제나 다름없다"고 강조했다. 그는 또한 "에임인텔리전스는 AI 시스템에 즉시 적용할 수 있는 다계층 보안 가드레일을 개발하고 있으며, 다양한 산업 분야로 협력 범위를 넓혀 실서비스 단계에서의 안전성을 확보해 나갈 것"이라고 말했다.
에임인텔리전스는 이번 연구를 통해 실증 기반 AI 보안 기술 분야에서의 선도적 입지를 확립하며, 금융, 국방, 공공기관, 제조, 헬스케어 등 다양한 산업에 걸쳐 AI 보안 혁신을 이어나갈 계획이다.
Welaunch 이나은 기자
스타트업 뉴스 플랫폼, 위런치
© 2024 Welaunch. All Rights Reserved
보도자료/기고 : editor@welaunch.kr
광고/제휴 문의: we@welaunch.kr

Welaunch
다른소식

