ChatGPT가 판례를 지어낸다 — 변호사가 꼭 알아야 할 AI 할루시네이션

2026. 5. 28.

ChatGPT가 내준 판례, "진짜 맞아?" —

이런 의심은 중요합니다. 2023년 뉴욕의 Steven Schwartz 변호사가 제출한 서면의 판례 6건이 전부 ChatGPT가 만든 가짜였고, "진짜야?"라고 거듭 물어도 ChatGPT는 끝까지 "맞다"고 우겼습니다. 결국 법원 제재로 끝났죠(Mata v. Avianca).

한국 법원에서도 이미 같은 일이 벌어지고 있습니다. 2026년 3월 법원행정처는 "각급 법원에서 AI 환각으로 인한 허위 법령·판례 인용 사례가 다수 보고됐다" 며, 대응책으로 소송비용 부담·대한변협 징계 의뢰·허위 법령 인용 과태료까지 검토 중이라고 밝혔습니다. (관련기사)

이쯤 되면 "AI는 역시 못 믿겠다" 싶어집니다. 매우 자연스러운 반응이에요. 그런데 법률 산업을 포함한 모든 영역에서 이미 사람들의 고민은 "AI를 쓸지 말지"가 아니라 "어떻게 잘 쓸지" 로 옮겨와 있습니다. 이유는 단순해요. 잘 쓴 AI가 만들어내는 업무 효율이 압도적이거든요. 수만 페이지 증거를 며칠 안에 파악하고, 흩어진 진술 사이의 모순을 짚어내고, 서면 초안의 상당 부분을 받쳐줍니다. 이 차이를 한 번 체감한 변호사가 다시 수기 정리로 돌아가긴 어렵습니다.

진짜 사고의 원인은 AI 사용이 아니라, 어디까지 믿고 어디부터 검증할지 모르는 채로 쓸 때 납니다.

오늘은 그래서 'AI는 왜 당당하게 거짓 답변을 내놓을까'에 대한 이야기를 하려고 합니다. AI가 어떻게 작동하는지 딱 한 단계만 알고 쓰셔도, 리스크를 관리하는 감각이 생길거예요.

AI는 사실을 '아는' 게 아니라, 다음 말을 '확률로 고른다'

ChatGPT, Claude, Gemini는 모두 LLM(거대 언어 모델) 입니다. 핵심은 LLM은 사실을 떠올려 답하지 않습니다. 학습한 문장을 토대로 다음에 올 법한 말을 확률로 골라 이어 붙여요. 후보가 여러 개라 같은 질문에도 답이 조금씩 달라지고요.

변호사가 법전을 펴서 조문을 조회하는 것과, 상대 진술을 듣고 "다음엔 이런 말이 나오겠지" 예측하는 것은 전혀 다른 일이죠.
LLM이 하는 건 후자입니다. 사실 조회 가 아니라 생성. 그래서 AI는 가짜 판례를 '자신 있게' 답변하게 되는 거예요.

AI는 판례의 형식(사건번호 모양, 판시사항 말투, 인용 형식)을 워낙 많이 학습했어요. 그래서 정확한 사건번호를 모를 때조차 그 형식에 꼭 맞는 가짜를 자신 있게 채워 넣습니다. 부족한 건 '사실'이지 '형식'이 아니거든요. 되물어도 "맞다"는 이유도 같습니다. AI는 진위를 판단한 게 아니라 그럴듯한 문장을 생성했을 뿐이니까요.

이게 바로 할루시네이션(AI 환각) 입니다. 버그가 아니라 확률로 말을 고르는 구조의 필연이라고 할 수 있습니다.

그렇다면 AI 업계는 할루시네이션을 어떻게 줄여왔을까요?

접근	한 줄 비유	가짜 판례를 얼마나 막나
① 순수 LLM	읽은 기억만으로 즉답	❌ 가장 잘 지어냄
② 프롬프트 엔지니어링	"넌 20년 차 변호사야"라고 역할 지정	△ 답변의 품질은 올리지만, 가짜는 그대로
③ RAG (외부 지식 주입)	답하기 전에 진짜 판례집을 펴보게 시킴	⭕ 크게 줄지만, 자료가 많으면 할루시네이션 증가
④ 컨텍스트 엔지니어링	펼친 자료 중 지금 필요한 페이지만 골라 정리	⭕⭕ 헷갈림을 구조적으로 통제
⑤ 에이전틱 AI	읽는 AI·구성하는 AI·검증하는 AI가 분업	⭕⭕ 증거분석, 서면 같은 복잡한 일까지 처리가능

아이렉스는 ⑤ 에이전틱 AI까지 구현한 서비스예요.

이 5단계는 업계가 한 단계씩 쌓아 올린 흐름이에요. 단계가 높아질수록 AI가 헷갈리는 상황이 줄고, 처리할 수 있는 작업의 복잡도가 올라갑니다. 이를 모두 구현한다는 게 실무에서 어떤 차이를 만드는지 예를 하나 들어보겠습니다.

A와 B 사이의 금품 수수가 의심되는 사건. 아이렉스는 A → B 송금 내역뿐 아니라, A의 가족 C가 B와 의심 거래를 했다는 것까지 찾아냅니다.

가능한 이유는 하나예요. 인물 간의 관계 정보까지 구조적으로 정리해서 AI가 데이터를 '평면'이 아니라 '입체'로 파악할 수 있게 설계했기 때문입니다. 이것이 ④ 컨텍스트 엔지니어링이 실제로 작동하는 모습입니다. 그 위에 읽는 AI·구성하는 AI·검증하는 AI가 분업하는 ⑤ 에이전틱 구조가 얹혀, 수만 페이지 증거를 기반으로 한 서면 초안 작성까지 가능해집니다.

할루시네이션을 줄이는 가장 확실한 방법은, 줄이도록 구조적으로 설계된 도구를 쓰는 것입니다.

오늘의 요약

LLM은 사실을 아는 게 아니라 다음 말을 확률로 고릅니다.
그래서 가짜 판례(할루시네이션)는 버그가 아니라 구조적으로 발생하는 문제입니다.
검증은 반드시 AI 바깥에서 하고, 할루시네이션을 줄이도록 구조적으로 설계된 도구를 쓰는 것이 안전합니다.

다음 편 예고

다음 편에서는 변호사 판단이 담긴 '서면'을, 가짜 없이 AI로 뽑아내는 과정을 다루겠습니다!

기다리기 전에 직접 써보고 싶다면, 아래 링크에서 바로 시작할 수 있어요.

→ 아이렉스 시작하기

목록으로

ChatGPT가 판례를 지어낸다 — 변호사가 꼭 알아야 할 AI 할루시네이션

ChatGPT가 내준 판례, "진짜 맞아?" —

AI는 사실을 '아는' 게 아니라, 다음 말을 '확률로 고른다'

그렇다면 AI 업계는 할루시네이션을 어떻게 줄여왔을까요?

아이렉스는 ⑤ 에이전틱 AI까지 구현한 서비스예요.

오늘의 요약

다음 편 예고

추천 아티클

ChatGPT가 판례를 지어낸다 — 변호사가 꼭 알아야 할 AI 할루시네이션

[웨비나] 오늘 배우고 바로 쓰는 법률 AI 활용법

AI로 거래내역 분석, 수천 행부터 왜 자꾸 틀릴까

법률 특화 AI는 범용 AI와 무엇이 다른가

ChatGPT가 판례를 지어낸다 — 변호사가 꼭 알아야 할 AI 할루시네이션

[웨비나] 오늘 배우고 바로 쓰는 법률 AI 활용법

AI로 거래내역 분석, 수천 행부터 왜 자꾸 틀릴까