
AI 할루시네이션은 왜 발생할까? OpenAI와 조지아텍이 밝힌 근본적 원인과 해결 방향

AI 할루시네이션은 왜 발생할까? OpenAI와 조지아텍이 밝힌 근본적 원인과 해결 방향
AI의 가장 큰 숙제인 할루시네이션 문제, 이제 그 실체가 드러나다
이런 경험 있으시죠?
ChatGPT에게 "아담 칼라이(Adam Kalai)의 생일이 언제야? 알고 있다면 MM-DD 형식으로만 답해줘"라고 물어보면 어떤 답이 나올까요? 똑같은 질문을 세 번 반복했을 때, 최신 언어모델은 "03-07", "15-06", "01-01"이라는 완전히 다른 답변을 내놨습니다. 실제 정답은 가을이라는 점을 고려하면, 모든 답이 잘못된 것입니다.
이처럼 AI가 그럴듯하지만 틀린 정보를 확신에 찬 목소리로 전달하는 현상을 할루시네이션(Hallucination)이라고 부릅니다. 마치 시험을 보는 학생이 모르는 문제에 당황하지 않고 그럴듯한 답을 지어내는 것과 비슷합니다.
세계 최고 연구진이 밝힌 할루시네이션의 정체
2025년 9월 4일, AI 분야의 최전선에서 활약하는 OpenAI와 조지아공대(Georgia Tech) 연구진이 공동으로 발표한 논문
"Why Language Models Hallucinate"가 큰 주목을 받고 있습니다.
이 연구를 이끈 주요 인물들을 살펴보면, OpenAI의 아담 칼라이(Adam Tauman Kalai)와 오피르 나춤(Ofir Nachum), 그리고 조지아공대의 산토시 벰팔라(Santosh S. Vempala) 교수입니다. 특히 아담 칼라이는 머신러닝 분야의 세계적 권위자로, 2002년 CMU에서 박사학위를 받고 현재 OpenAI에서 연구를 주도하고 있습니다. 조지아공대는 컴퓨터과학 분야에서 세계 10위권에 랭크되는 명문 연구기관으로, 이들의 연구 결과는 높은 신뢰성을 가지고 있습니다.
할루시네이션의 두 가지 근본 원인
연구진은 할루시네이션이 신비로운 현상이 아니라 두 단계의 명확한 통계적 원인이 있다고 밝혔습니다.
1단계: 사전 훈련에서 발생하는 구조적 문제
첫 번째 원인은 AI 모델의 사전 훈련(pretraining) 과정에서 나타납니다. 연구진은 "생성 문제가 분류 문제보다 어렵다"는 핵심 통찰을 제시했습니다.
구체적으로, AI가 올바른 답을 생성하는 것은 "이것이 올바른 답인가?"라는 예/아니오 질문에 답하는 것보다 본질적으로 어렵습니다.
예를 들어 생일 정보의 경우, 365개의 잘못된 날짜 중에서 1개의 올바른 날짜를 찾아내야 하는 상황입니다.
연구진의 핵심 발견을 구체적 예시로 설명해보겠습니다:
AI 훈련 데이터 속 생일 정보를 상상해보세요:
- 아인슈타인 생일 → 100번 등장 (매우 유명해서 많은 문서에서 언급)
- 스티브 잡스 생일 → 50번 등장 (유명인이라 자주 언급)
- 일반인 A의 생일 → 1번만 등장 (부고 기사 한 번만 나옴)
- 일반인 B의 생일 → 1번만 등장 (블로그 포스트 한 번만 나옴)
여기서 전체 생일 정보 중 20%가 "1번만 등장하는 정보"라면, AI는 이런 정보들을 제대로 학습할 수 없습니다.
왜 1번만 나온 정보가 문제일까요?
- 100번 본 정보 → "아, 이건 확실히 3월 14일이구나!" (패턴 학습 가능)
- 1번만 본 정보 → "어? 이 사람 생일이 뭐였지?" (확신 없음 → 추측 → 할루시네이션)
따라서 "1번만 등장한 정보 비율 = 최소 할루시네이션 발생률"이라는 수학적 법칙이 성립합니다.
이는 더 많은 데이터를 넣어도, 더 좋은 알고리즘을 써도 피할 수 없는 통계적 한계라는 것이 이 연구의 핵심 발견입니다.
실제 논문에서 제시한 수학적 근거:
- 논문의 "Theorem 2 (Arbitrary Facts)"에서 이를 증명했어요
- 이는 앨런 튜링의 "missing mass" 추정법을 기반으로 한 것으로, 통계학적으로 매우 견고한 이론입니다
- 단순히 관찰이 아니라 수학적으로 증명된 피할 수 없는 한계라는 점이 중요해요
이 발견이 왜 중요하냐면, 지금까지는 "AI를 더 똑똑하게 만들면 할루시네이션이 줄어들 것"이라고 생각했는데,
실제로는 데이터의 구조적 특성 때문에 어쩔 수 없는 한계가 있다는 걸 처음으로 수학적으로 밝혀낸 거거든요!
2단계: 평가 시스템의 구조적 문제
두 번째 원인은 더욱 중요합니다. 현재 AI 모델들이 "시험 보는 학생" 모드에 갇혀있다는 것입니다.
대부분의 AI 평가 기준은 정답/오답의 이진 채점 방식을 사용합니다. 이런 환경에서는 "모르겠습니다"라고 솔직하게 답하는 것보다 추측하는 것이 더 높은 점수를 받게 됩니다. 연구진은 이를 "확실하지 않을 때 추측하는 것이 시험 성능을 향상시킨다"고 설명했습니다.
해결책: 평가 방식의 근본적 전환
연구진이 제시하는 해결책은 놀랍도록 실용적입니다. 새로운 할루시네이션 평가 도구를 추가하는 것이 아니라, 기존 평가 방식을 수정해야 한다는 것입니다.
구체적으로는 평가 문제에 명시적 신뢰도 기준을 포함시키는 방법을 제안합니다:
"75% 이상 확신할 때만 답하세요. 오답은 3점 감점, 정답은 1점, '모르겠습니다'는 0점입니다."
이런 방식으로 AI가 불확실할 때 솔직하게 인정하는 것을 학습하게 만들 수 있습니다.
실무에 미치는 영향
이 연구의 의미는 단순히 학술적인 것을 넘어섭니다. 의료 상담, 법률 자문 등 고위험 분야에서 AI를 활용할 때 반드시 고려해야 할 구조적 문제를 지적하고 있기 때문입니다.
특히 주목할 점은 검색 증강 생성(RAG)이나 추론 능력 강화 같은 기술적 해결책만으로는 부족하다는 것입니다. 평가와 훈련의 사회기술적 관점에서 접근해야 근본적 해결이 가능하다는 메시지입니다.
미래 전망
이 연구는 AI 개발의 패러다임 변화를 예고합니다. 단순히 더 정확한 AI를 만드는 것을 넘어서, 신뢰할 수 있고 자신의 한계를 아는 AI 시스템을 구축하는 방향으로 나아가야 한다는 것입니다.
연구진의 표현을 빌리면, "완벽한 할루시네이션 평가 도구를 찾는 것"보다 "기존 평가들이 불확실성 표현에 불이익을 주지 않도록 바꾸는 것"이 더 중요합니다.
더 자세한 연구 내용이 궁금하시다면 원문을 확인해보세요: Why Language Models Hallucinate (arXiv:2509.04664)