인공지능(AI) 기술의 최전선에 있는 오픈AI(OpenAI)가 지난 8월 7일, 야심 차게 준비한 차세대 거대 언어 모델(LLM) GPT-5를 전격 공개하였다. 오픈AI는 GPT-5가 사고하는 능력을 내장하여 그 어느 때보다 똑똑하고 빠르며 유용하다고 강조하였다. 특히 수학, 과학, 금융, 법률 등 광범위한 분야에서 전문가 수준의 지능을 제공하여 마치 각 분야의 전문가 팀을 언제든 호출할 수 있는 것과 같다고 설명하였다. 또한, 더욱 효율적인 코딩 협업 능력, 풍부한 표현력의 글쓰기 지원, 그리고 건강 관련 질문에 대한 더 정확하고 신뢰할 수 있는 답변을 제공한다고 발표하였다. 이는 GPT-5가 단순히 정보를 나열하는 것을 넘어, 문제 해결에 깊이 관여하고 창의적인 결과물을 내놓을 수 있음을 시사한다. 개인화된 경험을 위한 맞춤형 성격 설정, 음성 인식 개선, 학습 모드, 그리고 Gmail이나 구글 캘린더와 같은 외부 앱 연동 기능까지 추가되어 사용자 편의성 또한 대폭 향상될 것으로 기대되었다. 개발자들에게는 향상된 코드 생성 능력과 에이전트 작업 수행 능력, 그리고 최소 추론 및 상세도 매개변수가 도입되어 더욱 정교한 모델 제어가 가능해졌다. 비즈니스 환경에서는 신뢰할 수 있는 전문가 역할을 수행하며, 기업 내부 자료 및 연결된 앱을 활용하여 더 높은 품질의 응답을 제공한다는 점이 부각되었다. 이처럼 오픈AI는 GPT-5를 통해 일반 사용자부터 개발자, 기업에 이르기까지 AI 활용의 새로운 시대를 열겠다는 포부를 드러냈다. 그러나 출시 직후부터 예상치 못한 그림자들이 드리워지기 시작한다.

사용자 불만 촉발: GPT-4o를 향한 애착과 모델 교체 논란

GPT-5의 화려한 등장은 그러나 곧바로 거센 사용자들의 불만과 마주하였다. 오픈AI가 GPT-5를 기본 모델로 내세우며 기존 GPT-4o 모델을 일시적으로 제외하자, 많은 사용자가 격렬하게 반발하기 시작한 것이다. 특히 레딧(Reddit)과 엑스(X, 구 트위터)와 같은 온라인 커뮤니티에서는 GPT-4o에 대한 사용자들의 강한 애착이 여실히 드러났다. 일부 사용자들은 모델 변경을 마치 친한 친구나 사랑하는 사람을 잃은 것 같다고 비유하며 감성적인 반응을 보였다. 반면, GPT-5의 응답이 GPT-4o보다 짧고 덜 유용하다는 실용적인 비판도 제기되었다. 이러한 비판의 배경에는 GPT-4o가 지녔던 특유의 따뜻함과 개성이 GPT-5에서는 느껴지지 않는다는 아쉬움이 깔려 있었다. 오픈AI의 샘 알트만 최고경영자(CEO)조차도 GPT-5 업데이트가 대부분의 사용자에게 GPT-4o만큼 성가시지 않아야 한다고 언급하며, GPT-4o의 특성을 GPT-5에 녹여내기 위한 노력을 시사하였다. 챗GPT 책임자인 닉 털리(Nick Turley)는 4o를 계속 제공하지 않은 것이 실수였다고 인정하며, 모델의 개성에 대한 사용자들의 강한 애착에 놀랐다고 밝혔다. 오픈AI 측은 챗GPT의 주간 활성 사용자 대다수가 기본 모델을 사용하며 모델 선택의 복잡성을 줄이기 위함이었다고 설명했지만, 이러한 단순화 전략은 고급 사용자들에게는 오히려 혼란과 불만을 초래하였고, 결국 오픈AI는 사용자들의 거센 요구에 직면하여 GPT-4o를 유료 사용자들을 위한 선택적 모델로 다시 제공하기로 결정하였다.

오픈AI 주장의 허점? 외부 연구 기관이 밝혀낸 GPT-5의 치명적인 보안 취약점

새로운 모델의 등장이 사용자 경험 측면에서 논란을 빚는 와중에, GPT-5는 더욱 심각한 문제에 직면한다. 바로 보안 문제이다. 오픈AI와 마이크로소프트는 GPT-5가 이전 모델 중 가장 안전하고 보안이 강화된 모델이라고 주장하였으나, 외부 보안 연구자들의 평가는 정반대였다. AI 레드팀(red-teaming) 전문 기업 SPLX는 GPT-5의 기본 버전이 기업에서 거의 사용 불가능할 정도로 보안에 취약하다는 충격적인 연구 결과를 발표하였다. SPLX는 프롬프트 인젝션, 데이터 및 컨텍스트 오염, 탈옥(jailbreaking), 데이터 유출 등 1,000가지가 넘는 다양한 공격 시나리오를 GPT-5에 적용한 결과, 보안 평가에서 2.4%, 안전성에서 13.6%, 비즈니스 정렬에서 1.7%라는 극히 저조한 점수를 기록하였다. SPLX의 최고기술책임자(CTO)인 안테 고살리치(Ante Gojsalic)는 오픈AI와 마이크로소프트의 발표와 달리 GPT-5의 실제 보안 수준은 끔찍하다며 일부 오픈소스 모델보다도 못하다고 강하게 비판하였다. 마이크로소프트는 내부 레드팀 테스트를 통해 GPT-5가 악성코드 생성 및 사기 자동화 등 여러 공격 모드에 대해 강력한 안전 프로필을 보였다고 주장했지만, 이러한 주장이 무색할 정도의 결과였다. 오픈AI 역시 GPT-5가 배포 전 수 주간 내부 및 외부 레드팀 테스트를 거쳤다고 밝혔으나, 그 실효성에 의문이 제기되고 있다.

주장과 현실 사이의 괴리: 보안과 성능 사이의 균형점은 어디에?

오픈AI와 마이크로소프트의 공식 발표와 외부 연구 기관의 독립적인 평가 사이에 이러한 현격한 차이가 발생하는 이유는 무엇일까? SPLX의 고살리치 CTO는 새로운 상업용 모델들이 시장에 출시될 때 코드 생성, 수학 공식, 생명 과학 등 고객이 선호하는 기능적 역량 지표에서 최상위권을 차지하는 것이 기본적인 전제 조건이라고 지적한다. 개발사들이 모델 성능 향상에 집중하느라 보안 및 안전성 검증을 상대적으로 소홀히 했을 가능성이 있다는 분석이다. 고살리치는 오픈AI와 마이크로소프트가 보안 및 안전성 측면에서 산업 관련성이 떨어지는 매우 특정적인 테스트만을 수행했을 것이라고 추정한다. 이는 기업들이 AI 모델을 서둘러 시장에 내놓는 과정에서 기능적 우위를 최우선 과제로 삼았기 때문일 수 있다. 오픈AI 대변인은 SPLX 연구에 대한 답변으로 탈옥 테스트 벤치마크인 스트롱리젝트(StrongReject)를 사용하여 GPT-5를 테스트했다고 밝혔으나, 외부 연구자들이 발견한 취약점들을 모두 포괄하지는 못한 것으로 보인다. 실제로 GPT-5 출시 후 일주일도 채 되지 않아 뉴럴트러스트(NeuralTrust)와 같은 AI 보안 기업들은 컨텍스트 오염을 통한 기본 모델의 탈옥 방법을 발견하였다고 발표하였다. 에코 챔버(Echo Chamber)라는 탈옥 기술을 활용하여 명시적으로 악의적인 프롬프트 없이도 유해한 결과물을 도출할 수 있었으며, 이는 키워드나 의도 기반 필터만으로는 다단계 대화 설정에서 점진적인 컨텍스트 오염을 막기 어렵다는 점을 시사한다. 또한, RSAC 랩스와 조지 메이슨 대학교 연구진은 에이전트 AI의 조직 내 사용에 대한 연구에서 AI 기반 자동화가 심각한 보안 비용을 수반한다고 결론 내렸다. 이는 GPT-5를 직접 테스트한 것은 아니지만, GPT-4o와 4.1 모델에서도 공격자들이 유사한 조작 기술을 사용하여 모델의 행동을 왜곡할 수 있음을 보여준다.

AI 기술 발전의 그림자: 사용자 소통과 보안 강화의 과제

GPT-5를 둘러싼 일련의 사건들은 AI 기술 발전의 양면성과 함께, 거대 AI 모델을 개발하고 배포하는 기업들이 직면한 복잡한 과제를 명확히 보여준다. 오픈AI는 사용자들의 강력한 피드백을 수용하여 GPT-4o 모델을 재도입하고, 향후 모델 변경 시 사용자들에게 충분한 사전 고지(advance notice)를 제공하겠다고 약속하였다. 챗GPT 책임자인 닉 털리는 대규모 사용자층에게 서비스를 제공하는 만큼 중대한 변화 시 예측 가능성을 제공해야 한다고 강조한다. 이는 기업용 플랜에서 이미 시행 중인 정책을 일반 사용자에게도 확대 적용하겠다는 의미이다. 비록 초기 출시의 진통을 겪었지만, 털리는 GPT-5 출시 이후 챗GPT의 전반적인 사용량이 오히려 증가했다고 밝히기도 했다. 이는 파워 유저들의 목소리와는 별개로, 일반 사용자층에서는 GPT-5가 제공하는 사고하는 모델의 개념과 그 잠재력에 긍정적으로 반응하고 있음을 시사한다. 그러나 보안 문제는 여전히 해결해야 할 중대한 과제이다. 오픈AI는 악의적인 사용 위험을 줄이기 위한 노력을 지속하고 있으며, 탈옥과 같은 공격에 모델을 더욱 강력하게 만들기 위해 안전 장치를 지속적으로 개선하고 있다고 밝히고 있다. 하지만 외부 연구자들의 독립적인 검증과 비판은 기술 개발 속도만큼이나 안전성과 신뢰성 확보가 중요하다는 사실을 다시 한번 일깨워준다. AI 기술이 사회 전반에 미치는 영향이 커질수록, 개발사는 기능적 우위뿐만 아니라 사용자 경험, 투명한 소통, 그리고 무엇보다 강력한 보안을 최우선으로 삼아야 할 것이다. GPT-5의 사례는 이러한 복합적인 요구사항 사이에서 균형을 찾아가는 것이 결코 쉽지 않음을 보여주는 동시에, AI 기술의 성숙을 위해 끊임없이 고민하고 발전해야 할 필요성을 역설한다.

노잇. - KNOW IT. 세 줄 요약

GPT-5가 공개되자마자 혁신적 성능과 더불어 보안 취약점 논란에 휩싸였다. 특히 사용자들은 이전 모델인 GPT-4o에 대한 강한 애착을 보이며 불만을 표출했고, 이에 OpenAI는 4o 모델을 재제공하고 향후 모델 변경 시 사전 고지하겠다고 밝혔다. AI 기술 발전의 이면에는 사용자와의 소통, 그리고 강력한 보안이라는 중요한 과제가 놓여 있음을 보여준다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."