샌즈랩, 생성형 AI와 데이터셋으로 보안 산업 기술 혁신의 기준 제시한다.
- 인공지능 기술의 발전에 따른 인공지능 보안이 중요해진 시대 도래
- 사이버 위협 인텔리전스를 근간으로 생성형 AI, LLM, RPA와의 융합 추구
- 생성형 인공지능 전문 업체와 협력, 글로벌 기술 개발 강화
사이버 위협 인텔리전스 전문 기업인 샌즈랩이 생성형 AI 기술과 인공지능 학습용 데이터셋 활용 전략으로 시대적 변화에 발맞춰 나아가는 AI 보안 기업으로 꾸준히 도약하고 있다.
최근 생성형 AI 기반 사이버 위협 인텔리전스 서비스인 CTX for GPT가 GPT 스토어에 입점되어 큰 화제가 되었다. 이렇게 샌즈랩이 AI 보안 기술 중심의 혁신을 펼칠 수 근간은 바로 사이버 위협 인텔리전스다.
위협 인텔리전스 서비스는 기존 및 잠재적 위협과 위협 동향을 분석하여 이를 대비하는데 도움을 주기 위해 과거로부터 지금까지의 수많은 데이터를 분석하고 식별한 정보를 고객에게 제공한다. 이러한 배경으로 그동안 샌즈랩이 수집하고 분석해 자체 보유하고 있는 빅데이터의 현재 크기는 무려 페타바이트(Petabyte) 단위에 이른다.
그림 1, AI 기술 기반의 차세대 사이버 위협 인텔리전스 서비스, CTX
이 중 특정 데이터들의 집합체, 또는 묶음을 데이터셋(Dateset)이라 부른다. 인공지능 모델을 학습시키기 위해서는 정형화된 형태의 양질의 데이터셋이 필수적으로 필요한데 샌즈랩의 데이터셋은 다양한 사이버 위협 공격 그룹 정보와 캠페인 관련 정보들까지 포함하고 있어 AI 알고리즘이 보다 현실적이고 다양한 상황에 대응할 수 있도록 도와줄 수 있다. 그만큼 인공지능 기술의 약점과 한계는 데이터셋이 좌우한다고 해도 과언이 아니다.
이에 샌즈랩은 지난 2021년부터 한국인터넷진흥원 데이터셋 구축 사업을 수행하고 있다. 이 사업은 지능형 사이버보안 대응 체계와 AI 보안 제품 및 서비스의 개발을 촉진시키고 추후 사이버보안 분야 생성형 AI 기술 개발 등의 다양한 분야에 활용될 수 있는 데이터셋을 다년간 정부와 공공에 공급할 만큼 데이터의 정확성과 일관성을 유지했음을 증명한다.
그림 2, 샌즈랩의 AI 데이터셋에 대한 설명 자료
그간의 경험과 데이터셋을 바탕으로 샌즈랩은 생성형 AI 기술과 GPT를 성공적으로 접목하여 보안 산업의 새로운 표준을 제시하는 혁신을 추구하고 있다. 생성형 AI 기술을 활용하여 내부의 네트워크 트래픽, 파일, 캠페인 등의 대규모 데이터를 실시간으로 분석하고 위협을 탐지하고 GPT를 통해 자연어 이해 능력을 향상시켜 사이버 위협에 대한 보다 능동적인 분석 및 대응을 가능케 한 것이다.
그림 3, 사이버 위협 인텔리전스에 생셩형 AI를 접목시킨 CTX for GPT의 예시 자료
이에 그치지 않고 최근 샌즈랩은 기업 내부 인프라에서 직접 운영, 제어가 가능한 구축형(온프레미스, On-premise) 형태의 sLLM(경량화 거대언어모델) ‘SANDY’를 개발하였다.
SANDY는 기업의 프라이버시와 규정 준수 요구사항을 충족시키도록 설계되어 대규모 언어 처리 기능을 제공하면서 기업 내부 내트워크 내에서 동작하기 때문에 데이터 유출의 위험을 크게 줄였고 기존에 사람이 직접 했던 보고서 요약 및 교정, 기업 내 햬킹 대응 정보 검색을 대신 수행할 수 있는 인공지능 사이버 보안 전문가이다.
그림 4, 생성형 AI 기반 구축형 사이버보안 모델 SANDY의 예시 자료
샌즈랩 김기홍 대표는 “사이버 위협 인텔리전스와 인공지능 학습용 데이터셋을 효과적으로 활용하려는 민관의 노력들이 보안 기술의 발전으로 이어지게 되고, 보안 산업의 혁신적인 결과를 이끌어 내게 될 수 있다.”며, “모두가 최신 사이버 위협에 선제적으로 파악·대응하고, 인공지능으로 고도화된 사이버 공격으로부터 보호되기 위해서는 더욱 향상된 위협 탐지와 대응 능력 향상을 위한 생성형 AI, LLM, RPA가 필수적으로 수반되어야 하기 때문에 국내 생성형 인공지능 전문 업체와의 협력으로 글로벌 기술 개발에 더욱 박차를 가할 예정.”이라고 밝혔다.