ChatGPT가 작성한 글과 사람이 직접 쓴 글을 AI 판별 프로그램이 얼마나 정확하게 구분할 수 있을까요?

ChatGPT와 같은 생성형 AI를 이용해 글을 작성하는 경우가 많아지면서 AI 판별 서비스도 함께 늘어나고 있습니다. 일부 사이트에서는 AI 작성 확률을 수치로 보여주기도 하는데, 사람의 글이 AI 글로 판정되거나 AI가 작성한 글이 사람의 글로 판정되는 사례도 종종 있다고 합니다. 실제로 AI 판별 프로그램의 정확도는 어느 정도인지, 어떤 기준으로 판단하는지 궁금합니다. 또 대학 과제나 블로그 글처럼 중요한 분야에서 AI 판별 결과를 어디까지 신뢰할 수 있는지도 알고 싶습니다.

4개의 답변이 있어요!

  • 안녕하세요, 문어박사님. 이중철 AX 정보처리기사입니다.

    직관적으로 먼저 답변드리자면, AI 판별 프로그램은 참고용으로는 쓸 수는 있지만, 사람 글과 AI 글을 '정확히' 가려내는 용도로는 아직도 한계가 매우 큽니다.

    특히, 중요한 제출물에서는 판별 결과를 단독 증거처럼 신뢰하기 어렵고, 보조 자료 정도로 참고 수준으로 보는 게 더 맞답니다.

    1. 정확도는 어느 정도인가요?

    관련하여 연구나 제품 서비스 소개에서는 80~99% 같은 높은 수치가 보여지기도 하지만, 이러한 수치는 특정 데이터셋, 특정 조건에 한하여 나온 결과인 경우가 많고, 마케팅 요소가 결합된 수치의 결과인 경우도 많습니다. 실제로 현장에서는 인간 글을 AI로 오판하거나, AI 글을 인간 글로 놓치는 사례가 적지 않다고 보고되고 있구요.

    예를 들어, 어떤 연구에서는 자체 모델이 높은 정확도를 보였지만, 다른 비교에서는 GPTZero 같은 범용 탐지기가 혼합 텍스트나 일부 인간 글을 잘못 분류하는 문제가 있었습니다. 즉, 여전히 도구들마다 편차가 크고, 같은 글도 결과가 달라질 수 있는 것이지요.

    2. 어떻게 판단하나요?

    AI 판별기는 보통 글의 문장 패턴, 어휘 선택, 반복성, 문장 길이의 균일함, 예측 가능성 같은 특징을 보는데요.

    어떤 도구는 설명 가능한 AI나 통계 기반 분류기를 써서 'AI처럼 보이는 패턴'을 찾습니다.

    문제는 사람이 써도 문체가 깔끔하고 정형화되면 AI처럼 보일 수 있고, 반대로 AI가 사람처럼 거칠게 쓰면 탐지를 피할 수도 있다는 점입니다. 그래서 실제로는 단순히 글의 스타일 몇가지만으로 확정하기 어렵다는 것이지요.

    3. 왜 오탐이 생기나요?

    짧은 글, 번역체, 학술문체, 보고서체, 비문이 적은 글은 AI로 오인되기 쉬운데요. 반대로 AI가 문장을 의도적으로 섞거나 수정하면 사람 글처럼 보일 수도 있습니다. 또한 많은 탐지기는 입력 길이가 짧을수록 신뢰도가 떨어진다고 알려져 있습니다. 즉, 문단 몇 개만 넣고 나온 점수는 특히 불안정할 수 있답니다.

    4. 어디까지 신뢰할 수 있나요?

    대학 과제나 블로그처럼 중요한 분야에서는 AI 판별 결과를 단독 판정 기준으로 쓰면 매우 위험한데요. 보통은 제출 이력, 초안, 수정 기록, 참고자료, 작성 과정 같은 맥락 증거 등과 함께 종합적으로 살펴봐야 합니다. 실무적으로는 'AI 판별 점수'보다도, 글의 내용이 과제 요구에 맞는지, 출처가 있는지, 작성자의 설명이 가능한지 같은 검증 가능한 요소들이 더욱 중요해요. 판별기는 참고 도구이지 최종 재판관은 아니니까요.

    정리하자면,

    AI 판별 프로그램은 완전히 믿을 수준은 아니고, 보조 지표로만 보는 것이 안전합니다. 특히 사람 글이 AI로 오탐되는 경우와 AI 글이 사람 글로 통과하는 경우가 둘 다 있어서, 중요한 판단은 과정 증거와 추가 확인이 필요하답니다.

    ※ 질문자님을 포함하여 소중한 분들의 건강, 재산과 안전을 지키고, 혹시나 발생할 수 있을 다양한 문제 상황에 놓이지 않기 위해서라도 저를 포함하여 다양한 토픽에서 활동하는 모든 전문가분들의 아하 지식커뮤니티에서의 답변은 예외 없이 참고 용도로만 유용하게 활용하시기 바랍니다.😉

    채택 보상으로 306베리 받았어요.

    채택된 답변
  • 안녕하세요. 김민석 정보처리기사입니다.

    현재 AI 판별 프로그램의 정확도는 상황에 따라 60%~90%대까지 변동이 심하며, 결코 완벽하게 신뢰할 수 없는 수준입니다. 개발사들은 99%의 정확도를 주장하기도 하지만, 실제 학계와 연구에 따르면 오판율(비영어권 글이나 정형화된 사람의 글을 AI로 오인하는 비율)이 상당하여 징계나 평가의 절대적 기준으로 삼기에는 무리가 있습니다.

  • 안녕하세요. 이태광 정보처리기사입니다.

    판별을. 하기는 할거 입니다. 그거는 직접 테스트를 해서 딥러닝을 시켜야 됩니다. 딥러닝은 파이썬이 최고 입니다.

  • 안녕하세요. 

    AI가 작성한 글과 사람이 쓴 글을 판별 프롬프트로 구분해 보면 차이가 아주 크게 난다고 보기는 어렵고, 실제로는 상당 부분 구분이 힘든 경우가 많습니다. 요즘 AI는 문장 구조와 표현력이 매우 자연스러워져 일반적인 정보글이나 블로그 글 수준에서는 사람 글과 거의 비슷하게 보이는 경우가 많으며, 판별 도구 역시 확정이 아닌 확률 기반이기 때문에 사람 글을 AI로 오판하거나 AI 글을 사람 글로 판단하는 경우도 자주 발생합니다. 특히 감정이나 개인 경험이 많이 담긴 글은 사람이 쓴 티가 비교적 잘 나지만, 정리형 설명 글이나 정보 전달 중심 글은 사람과 AI의 차이가 거의 드러나지 않기 때문에, 현재 기준으로는 AI 판별 결과를 절대적인 기준으로 보기보다는 참고용으로 활용하는 것이 현실적인 접근입니다.