
최근 GPT-5가 공개되면서 AI의 글쓰기 능력이 한층 더 정교해졌다. 세밀한 어휘 선택과 매끄러운 문장, 구성으로 인간의 필력을 거의 완벽히 재현하는 수준에 이르렀다. 인공지능(AI)의 글쓰기는 이미 과학 논문, 기업 보고서, 학업 과제, 문학 창작 등 일상 전반에 스며들고 있다. AI가 텍스트 생산에 깊이 관여하면서, 그 개입 여부를 판별하는 일도 점점 더 중요해지고 있다. AI가 쓴 글은 어떻게 판별할 수 있을까? 인간의 글을 모방한 문장에도 ‘기계적 생성’의 흔적은 남아 있다.
그 흔적을 판별하는 기술은 계속 진화 중이다.
기계가 글을 쓰면 흔적이 남는다
인공지능(AI)이 생성한 글을 판별하는 가장 직접적인 방법은 문장의 구조를 분석하는 것이다. 글의 완성도가 아니라 문장 구성, 단어 선택, 문장 간의 리듬처럼 반복된 패턴과 구조적 특징을 파악해서 AI가 쓴 글인지 판별할 수 있다.
대표적인 예가 품사 사용의 변화를 분석하는 것이다. 미국 플로리다공대 등 공동연구팀이 의학 및 생명과학 분야 논문 검색 엔진 펍메드(PubMed)에 등재된 2010~2024년의 논문 초록 약 1500만 건을 분석한 결과, 2024년 발표된 초록 중 약 13.5%가 AI 모델 중 하나인 ‘대형 언어 모델(LLM)’의 영향을 받은 문체로 나타났다. 특히 2020년부터 정보를 제공하는 내용 단어(content words)에 속하는 명사의 사용은 줄어든 반면, pivotal(중대한), unprecedented(전례 없는), robust(견고한), showcasing(돋보이게 하다), grappling(진지하게 씨름하다), elucidate(밝히다·설명하다)처럼 서술적인 문체 단어(style words)의 빈도가 눈에 띄게 늘었다. 이처럼 AI의 문장은 형용사와 동사를 과도하게 사용해서 평가나 감정을 담는 경향이 있다. doi: 10.1126/sciadv.adt3813
AI는 학습된 패턴에 따라 문장을 생성하므로 흐름을 예측하기가 상대적으로 쉽다. 반면 사람이 쓴 글은 감정이나 의도에 따라 문장 리듬, 구조가 불규칙하게 바뀔 수 있다. 이는 예측 용이성(perplexity)과 구조 다양성(burstiness)이란 지표로 설명할 수 있으며, 이 두 지표는 AI 문장을 판별하는 중요한 단서가 된다.
일반적으로 AI 문장은 패턴이 전형적이어서 예측 용이성이 높고 구조 다양성이 낮은 편이다. AI 문장의 이런 특성을 기반으로 개발된 AI 텍스트 판별 도구인 GPT제로는, 의료 분야 텍스트를 분석한 실험에서 약 80%의 정확도로 AI 작성 여부를 식별했다는 연구도 나왔다. doi: 10.3346/jkms.2023.38.e319 이처럼 챗GPT 킬러로 불리고 있는 GPT제로이지만 아직은 AI가 생성한 글을 인간이 쓴 글로 오판하는 경우가 적지 않다.
AI 모델 간의 문체 차이를 활용해서 어떤 AI가 생성한 글인지 구분하는 기술도 주목받고 있다. 예를 들어 챗GPT는 글루코오스(glucose) 같은 학술적 표현을, 제미나이는 설탕(sugar) 같은 일상적 어휘를 선호하는 경향이 있다. 이런 차이를 정량화해 클로드, 제미나이, 라마, 챗GPT 등 주요 AI 모델 각각이 남기는 고유한 ‘문체적 지문(stylistic fingerprint)’으로 텍스트를 생성한 AI를 판별하는 기술이 개발 중이다.
그중에서도 문장 길이, 구문 패턴, 어휘 다양성 등 세 가지 문체 정보를 활용해서 AI 작성 여부를 판별한 사례가 있다. AI 표절 탐지 기업인 카피리크스의 연구팀은 이 세 문체 정보를 각각 독립적인 알고리즘으로 설계하고, 세 알고리즘의 기준이 모두 일치하는 경우에만 AI가 생성한 텍스트로 분류하는 판별 모델을 개발했다. 이 모델은 99% 이상의 판별 정확도를 기록했다. doi: 10.48550/arXiv.2503.01659
AI 문체의 핵심, 동사와 형용사

타이핑이 유려할수록 의심이 깊어진다
AI와 협업해 글을 썼거나, AI가 생성하고 사람이 수정한 경우엔 그 내용만으로는 AI 개입 여부를 판별하기 어렵다. 이에 따라 ‘무엇을 썼는가’보다 ‘어떻게 썼는가’에 집중하는 방식이 최근 주목받고 있다. 키보드 입력 로그와 편집 패턴을 분석하는 방식이 대표적이다.
문장이 오타 없이 매끄럽게 입력됐거나, 타이핑 속도 기록이 일정하다면 AI가 글에 개입했을 가능성이 있다. 글의 삽입·삭제·수정 과정 등을 분석하는 머신러닝 모델이 ‘직접 작성’과 ‘복사 작성’을 구분해, 해당 글이 AI가 작성했는지 여부를 99%의 정확도로 판별한 연구도 발표됐다. doi: 10.5281/zenodo.11185779
또한 키보드의 입력 간격, 즉 타이핑 리듬만으로도 AI가 작성한 글인지 식별할 수 있다. 사람이 글을 쓰면 문장 사이의 수정 탓에 입력 속도가 불규칙해지지만, AI가 생성한 문장을 그대로 입력하면 타자 속도가 일정하기 때문이다. doi: 10.48550/arXiv.2406.15335

슬픈 글을 쓰는 AI는 어떤 기분일까
최근엔 글의 내용과 작성 과정을 함께 분석하는 다층적(multimodal) AI 판별 전략이 부상 중이다. 타이핑 분석만으로는 로그 접근 권한이나 판별 수단 확보에 제약이 있기 때문이다. 이 다층적 전략은 문장 구조와 어휘 패턴뿐 아니라, 글을 쓰는 동안에 나타나는 감정 반응이나 심박수, 뇌파 같은 생리 신호까지 함께 분석해 AI가 집필에 개입한 단서를 찾아낸다.
글을 쓸 때의 감정 흐름이나 신체 반응은 조작하기 어려운 정보다. 슬픔이나 분노를 표현하는 글을 쓸 때 표정이나 심박수 변화가 전혀 없다면, 이 글은 쓴 사람의 실제 감정에서 비롯되지 않았을 가능성이 통계적으로 높다. doi: 10.26599/AIR.2024.9150040 이런 개념에서 비롯된 AI 판별 기술은 다중 모달 학습 분석(multimodal learning analytics)으로 체계화되고 있으며, 교육, 윤리 검증, 저작권 판별 등 다양한 분야에서 활용될 것으로 보인다.
AI가 만든 문장에 고유한 패턴을 심는 워터마킹 기법도 등장했다. 구글 딥마인드는 자사 AI 모델 제미나이에 ‘신스ID 텍스트’를 적용해, 글의 의미에는 전혀 영향을 주지 않으면서, 문장 구조나 사용 어휘 속에서 통계적으로만 드러나는 패턴을 삽입하고 있다. 이 패턴은 사람이 읽을 때는 보이지 않지만, AI 판별 도구로 분석하면 AI가 쓴 글임을 확인할 수 있는 일종의 ‘숨은 표식’이 된다.
AI가 조용히 남기는 글 속의 지문, 워터마크

텍스트 생성의 맥락을 읽는 새로운 문해력
AI 글쓰기 판별 기술은 ‘무엇을 썼는가’에서 출발해 ‘누가, 어떻게 썼는가’를 규명하는 쪽으로 초점이 이동하고 있다. 이런 변화는 텍스트를 검열하려는 목적이 아니라, 텍스트가 생성되는 과정과 그 결과물에 대한 사회적 책임과 신뢰를 확보하기 위한 시도에 더욱 가깝다.
AI와 이를 판별하는 기술 사이의 경쟁은 신무기와 방어체계가 맞붙어 상호 진화하는 게임처럼 전개된다. AI는 점점 더 유려한 문장을 만들어내고, 판별 기술은 그 속에서 AI의 흔적을 찾아내며 글에 담긴 감정과 리듬까지 대조하는 정밀한 알고리즘으로 대응하고 있다. 이제 우리에게 필요한 것은 문장의 의미뿐 아니라 문장이 어떤 방식으로 생성됐는지 그 맥락을 읽어내는 새로운 문해력이다.
한국어 맞춤 AI 탐지 기술, 어디까지 왔나
여기에 더해 예측 용이성이나 구조 다양성처럼 언어 모델 기반의 수치 지표를 활용한 분석 방식도 고도화되고 있다. AI 기업 무하유가 개발한 ‘GPT 킬러’는 한국어 문서의 프롬프트 이력, 문장 구조, 표현 패턴을 추적해, AI가 과제나 자기소개서 작성에 개입했는지 가려낸다. 텍스트 분석을 넘어 행위 기반 AI 판별 기술도 한국어 텍스트에 도입되고 있다. 미국 버크넬대 연구팀은 챗GPT가 생성한 한국어 문장을 사람이 손으로 입력할 때에 나타난 타이핑 리듬을 분석해, 한국어 텍스트의 AI 개입 여부를 높은 정확도로 식별한 연구를 발표했다. doi: 10.48550/arXiv.2507.22956