실측값 · 대법원 공개 판례 300건
원심 45% → K-Law 73%
이론적 추정치 ±5%p
K-Law 방법론 실증 결과 보고서 (갱신판 v2.0)
K-Law Scientific Verification Report — Volume 1 (Rev. 3)
AI City Inc. / K-Law Inc.
최초 작성일: 2026년 5월 18일 | 갱신일: 2026년 5월 19일
보고서 버전: v2.0 (학술 투고 준비판 — 주석 및 출처 요건 반영)
**📌 코드 및 실연 평가 안내**
>
본 보고서에서 사용된 모든 평가 코드(`evaluate_verdicts.py` 포함)와 사건요지 샘플 데이터는 아래 공개 저장소에서 확인할 수 있습니다.
>
- **코드 저장소**: [github.com/nounweb/k-law](https://github.com/nounweb/k-law)
>
논문 심사자 및 독자는 아래 주소에서 K-Law 판결 시뮬레이션을 직접 실행하고 성능을 독립적으로 평가할 수 있습니다.
>
- **K-Law 판결 생성 및 성능 평가**: [openhash.kr](https://openhash.kr) / [gopang.net](https://gopang.net)
▶ 갱신 이력
| 버전 | 주요 변경 사항 |
|---|
|------|---------------|
| v1.0 | 최초 작성 |
|---|---|
| v1.1 | §2.2 잔여 불일치 재기술 / 제7장 신설 (독립 법리 판단 엔진 + 심급 입력) |
| v1.2 | 제8장 신설 (1심 이전 적용 시 정확도 재계산 + 사실 완전성의 불가결성 + 99.9% 달성 조건 및 비용 산출) |
| **v2.0** | **학술 투고 준비판: 출처·근거 필요 항목 주석 추가 / 기술 백서 분리 대상 명시 / 코드 공개 및 실연 평가 링크 추가 / 선택 편향 경고문 강화** |
※ 본 보고서는 추가 연구 수행 후 내용이 갱신될 예정입니다.
일러두기: 이 문서의 주석 표기 규칙
| 표기 | 의미 |
|---|
|------|------|
| **〔출처·근거 요망〕** | 해당 수치·주장에 동료 심사 논문 또는 공식 통계 출처가 필요함 |
|---|---|
| **〔추정치 — 신뢰구간 ±5%p〕** | 실측값이 아닌 이론적 추정값이며, 보수/낙관 시나리오를 병기해야 함 |
| ⚠️ *[별도 기술 백서 수록]* | 해당 절은 학술 논문 본문에서 분리되어 별도 기술 백서로 출판될 내용임. 본 보고서에서는 원문 보존을 위해 수록하되, 학술지 최종 투고 시 본문에서 제외 |
1. K-Law 73% vs 원심 45% — 차이의 의미
1.1 수치 정리
⚠️ **핵심 전제**: 아래 세 수치(K-Law 73%, 원심 45%, 1심 47%)는 모두 대법원이 선별 공개한 극소수의 판결문에 한정된 실측값입니다. 이 모집단이 전체 분쟁·소송 중 어느 위치에 있는지를 먼저 확인해야 수치의 의미를 올바르게 해석할 수 있습니다.
**〔출처·근거 요망〕** 원심(2심) ↔ 대법원 일치도 45%, 인간 1심 ↔ 대법원 일치도 47% 수치는 본 연구팀의 자체 측정값입니다. 동료 심사를 거친 선행 연구 또는 법원행정처 공식 사법통계에서 대응하는 수치를 인용하거나, 측정 절차(대상 연도, 사건 유형, 표본 수, 일치도 판정 기준)를 방법론 장에 상세히 공개해야 합니다. 현재는 예비 측정치(preliminary estimate)로 표기합니다.
| # | 단계 (선별 깔때기) | 선별 비율 | K-Law 측정과의 관계 |
|---|
|---|-------------------|-----------|---------------------|
| ① | 전체 분쟁·갈등 (사회 전체) | 100% (기준) | 측정 외 영역 |
|---|---|---|---|
| ② | ①에서 법원 소송 진행 (1심 접수) | ①의 일부 | K-Law 예방적 적용 가능 영역 전체 (Layer 1~3). 1심 47% 실측 포함 **〔출처·근거 요망〕** |
| ③ | ②에서 2심 항소 진행 | ②의 일부 | 원심 45% 실측 대상 포함. Layer 2A 해당 **〔출처·근거 요망〕** |
| ④ | ③에서 3심(대법원) 상고 진행 | ③의 일부 | 대법원 판결 비교 기준점. Layer 2B~3 해당 |
| ⑤ | ★ ④에서 대법원이 선별 공개한 판결문 | **④의 극소수 (~1% 미만) 〔출처·근거 요망〕** | ★ K-Law 73% · 원심 45% · 1심 47% 실측 모집단. 최고 난이도(법리특수 사건) — K-Law 하한값 |
| ⑥ | ④에서 헌법재판소 재판소원 진행 | ④의 극소수 | 헌법적 쟁점 사건. 현재 K-Law 측정 범위 외 |
**★ 핵심 해석 (선택 편향 경고)**: 세 수치는 모두 ⑤(전체 분쟁 중 극소수 ~1% 미만)에서 측정된 **하한값**입니다. K-Law 73%는 가장 어려운 사건에서의 성과이며, 전체 소송 사건(②) 기준 가중 평균 일치도는 81~92%로 상향될 것으로 **추정**됩니다 **〔추정치 — 신뢰구간 ±5%p〕**. 또한 ⑤번 모집단의 선택 편향으로 인해 1심(47%)이 2심(45%)보다 소폭 높은 역전 현상이 관찰되었습니다.
>
⚠️ 전체 소송 기준 81~92% 추정치는 Layer 1~2의 실측 데이터가 없는 이론적 투영값(theoretical projection)으로, 실증적 발견이 아닙니다. 낙관적 시나리오(92%)와 보수적 시나리오(87%) 범위로 이해해야 합니다.
역전 현상의 해석: ⑤번 모집단(법리특수 사건)에서 2심의 판단 교정이 오히려 대법원 방향과 어긋나는 경우가 일부 존재합니다. 이 역전은 ⑤번에만 국한되며, 전체 소송 사건(②)에서는 2심이 1심보다 일치도가 높을 것으로 추정됩니다 〔추정치 — 신뢰구간 ±5%p〕.
| 비교 쌍 | 일치도 | 비고 |
|---|
|---------|--------|------|
| K-Law ↔ 대법원 | **73%** | 실측 평균 (측정 방법론은 §방법론 장 참조) |
|---|---|---|
| 원심(2심) ↔ 대법원 | 45% | 실측 (예비 측정치) **〔출처·근거 요망〕** |
| 격차 (Δ) | **+28%p** | K-Law 우위 |
1.2 격차의 의미
① K-Law는 원심의 오류 패턴을 공유하지 않습니다.
원심이 대법원과 55% 불일치하는 원인은 크게 세 가지입니다. 사실심 전권에 따른 사실인정 오류, 판사 개인의 성향적 분산, 그리고 심리 부담(사건 처리량 과부하)입니다 〔출처·근거 요망 — 이 세 가지 원인 분류를 뒷받침하는 사법 연구 또는 통계 인용 필요〕. K-Law는 이 세 가지 인간적 오류 원인에서 자유롭습니다.
② K-Law는 대법원과 동일한 추론 층위에서 작동합니다.
원심은 사실심입니다. 사실관계를 새로 인정하고 증거를 평가합니다. 대법원은 법률심입니다. 원심의 법리 적용이 옳은지만 심사합니다. K-Law는 사건요지에서 법리 쟁점을 추출하여 대법원 법리 공리 체계로 판단합니다. 이것은 본질적으로 법률심의 추론 방식입니다. K-Law가 원심보다 대법원과 더 일치하는 것은 우연이 아니라 구조적 필연입니다.
③ 28%p 격차는 "법리 판단의 정확도"를 측정합니다.
원심의 45%는 사실판단 오류와 법리 판단 오류가 혼재된 결과입니다. K-Law의 73%는 사실판단을 생략하고 법리 판단만 수행한 결과입니다. 따라서 이 28%p는 사실심의 사실인정 오류가 법리 판단의 정확도를 얼마나 훼손하는가를 역으로 보여주는 수치일 수도 있지만, 원심의 법리 판단 오류가 주된 원인일 가능성도 없지 않습니다. 후자의 경우, 원심(+ 1심)의 법리 판단 능력이 3심에 비해 비교 열위 상태임을 추정할 수 있습니다 〔추정치 — 신뢰구간 ±5%p〕.
2. 73%에서 방법론 갱신이 정체되는 이유
2.1 성장 곡선의 구조
K-Law 방법론이 v1.0에서 v16.0에 이르기까지 35% → 50% → 60% → 70% → 73% → [정체]의 성능 향상 패턴을 보였습니다 〔출처·근거 요망 — 각 버전별 측정 시점, 사용된 사건 표본, 평가 방법론을 방법론 장에 명시 필요〕. 이것은 전형적인 수확 체감(Diminishing Returns) 곡선입니다. 방법론 갱신이 효과를 보이지 않는 이유는 방법론의 문제가 아닌 것으로 추정되며, 그 근거는 다음과 같습니다.
2.2 정체의 원인
원인 1 — 입력 정보의 구조적 상한 (데이터 병목)
현재 입력은 사건요지(A4 용지 1페이지 분량의 한글 요약본, 폰트 11, 행간 1.25, 글자수 약 5,000자)입니다. 이 정보량으로 도달 가능한 이론적 상한이 약 73~75%입니다 〔추정치 — 근거 요망: 정보량과 일치도 상한의 관계를 실증한 분석 또는 ablation study 결과 필요〕. 방법론이 아무리 정교해져도 입력 정보가 제공하지 않는 것을 추론할 수 없습니다.
수학적 표현:
$$A(v, g) = f(v) \times g \quad \cdots \text{[식 1]}$$
현재 추정값: A(v15.x, g\_요약) = 0.93 × 0.785 ≈ 0.73
변수 정의 및 근거
**핵심**: f(v) → max이어도 g\_요약 ≈ 0.785이면 A의 상한 ≈ 0.785. 즉 방법론 고도화만으로는 A ≥ 0.79를 달성할 수 없음.
원인 2 — 잔여 불일치의 성격 변화
초기 35%에서 73%로 상승하는 과정에서 제거된 오류는 방법론으로 해결 가능한 오류였습니다. 현재 잔여 27% 불일치의 성격은 다음과 같이 재분류됩니다.
| 잔여 불일치 유형 | 비율(추정) | 해소 방법 |
|---|
|----------------|-----------|-----------|
| 현재 설계(대법원 모방)에서 원심 참조 구조로 인해 발생하는 오류. 독립 법리 판단 엔진(방향 B)으로 전환 시 구조적으로 완전 소멸. | **~6% (보수적 추정) 〔추정치 — 근거 요망〕** | 설계 전환 시 소멸 |
|---|---|---|
| 사실관계 미확정 | ~8% **〔추정치 — 근거 요망〕** | 완전 사실 제공 시 해소 |
| 전원합의체 판례 변경 예측 불가 | ~4% **〔추정치 — 근거 요망〕** | 해소 불가 (미래 예측 한계) |
| LLM 고유 오류(환각, 포맷) | ~3% **〔추정치 — 근거 요망〕** | 모델 개선으로 부분 해소 |
**핵심 재해석**: 27% 중 최대 6%는 설계 전환(방향 B)으로 해소 가능한 구조적 오류입니다(보수적 추정). 나머지 잔여 오류 중 일부는 역추정 오류와 입력 정보 노이즈가 혼재하여 설계 전환만으로 완전 소멸을 보장하기 어렵습니다. 설계 전환 후 일치도는 73% → 약 79%로 상향이 기대됩니다 **〔추정치 — 신뢰구간 ±5%p〕**. 자세한 내용은 제7장 및 제8장을 참조하십시오.
원인 3 — 평가 방법론의 노이즈
evaluate_verdicts.py의 평가 자체가 DeepSeek API(2026년 5월 현재 사용 중인 LLM 서비스 〔출처·근거 요망 — "최저가"라는 표현은 삭제하거나 실제 요금 비교 근거 인용 필요〕)를 호출하므로 평가 점수에 노이즈가 있습니다. 이 노이즈 범위 안에서는 방법론 갱신 효과가 통계적으로 유의미하게 측정되지 않습니다.
**〔보완 권고〕** LLM 평가의 신뢰도를 높이기 위해 최소 3인의 법률 전문가가 독립적으로 K-Law 판단과 대법원 판결을 비교한 인간 평가자 간 일치도(Cohen's κ 또는 Cronbach's α)를 후속 연구에서 보고해야 합니다. 전체 코드는 [github.com/nounweb/k-law](https://github.com/nounweb/k-law)에서 확인할 수 있습니다.
3. 1심 이전 K-Law 가상 판결의 대법원 일치도 예측
3.1 전제 설정
3.2 H1, H2 추정
H1(실측) = 47% | H2(실측) = 45% 〔출처·근거 요망 — 두 수치 모두 동료 심사 논문 또는 법원행정처 사법통계 인용 필요. 자체 측정치일 경우 측정 절차 공개 필요〕
주목할 점: 대법원 공개 판례(Layer 3, 법리 특수 사건)에 한정하면, 인간 1심의 대법원 일치도(47%)가 2심(45%)보다 소폭 높습니다. 이는 선택 편향의 효과로 해석됩니다 — 대법원에 공개될 만큼 법리적으로 중요한 사건에서 2심이 1심 판단을 변경할 때, 그 변경이 오히려 대법원 판단과 어긋나는 경우가 일부 존재합니다. 즉 2심의 "교정"이 항상 옳지는 않으며, 법리특수 사건에서 1심과 2심의 판단 정확도 차이가 예상보다 작습니다.
3.3 현재 측정값의 모집단과 수정된 예측
현재 K-Law 73% 일치도의 모집단은 대법원이 선별하여 공개한 판례(Layer 3, 법리 특수 사건)입니다. 즉, K-Law는 가장 어려운 사건에서 73%를 달성하고 있습니다. 만약 대법원 비공개 사건과 1심, 2심 사건으로 확장할 경우, K-Law의 대법원 판결 일치도는 다음과 같이 추산할 수 있습니다.
⚠️ **선택 편향 경고**: 아래 표의 Layer 1~2B 수치는 실측값이 없는 이론적 투영치입니다. 실증적 발견으로 해석되어서는 안 됩니다.
| 계층 | 전체 사건 비중 | K-Law 예상 일치도 | 근거 |
|---|
|------|--------------|-------------------|------|
| Layer 3 대법원 공개 판례 | ~1% 미만 **〔출처·근거 요망〕** | **73% (실측)** | 현재 측정값 |
|---|---|---|---|
| Layer 2-B 대법원 비공개 판결 | ~5% **〔추정치〕** | 76~82% (추정) **〔추정치 — 근거 요망〕** | 확립 법리 적용이므로 상향 추정 |
| Layer 2-A 2심 확정 사건 | ~15% **〔추정치〕** | 85~90% (추정) **〔추정치 — 근거 요망〕** | 법리 단순화로 추가 상향 추정 |
| Layer 1 1심 확정 사건 | ~79% **〔추정치〕** | **92~97% (추정)** **〔추정치 — 근거 요망〕** | 패턴 인식 기술이 가장 유효한 영역으로 추정 |
$$E(K_{\text{전체}}) = \sum_i (W_i \times K_i) \quad \cdots \text{[식 2]}$$
$$E(K_{\text{전체}}) = 0.79 \times 0.94 + 0.15 \times 0.87 + 0.05 \times 0.82 + 0.01 \times 0.73 \approx 92\%$$
변수 정의 및 근거
제9장 결론: 데이터 완전성에 따른 사법 불확실성 소멸 시나리오
K-Law 방법론 실증 결과 보고서 v2.0 — 결론부
AI City Inc. / K-Law Inc. | 2026년 5월
**독자 안내**: 본 결론부는 법학 교수 및 법조계 종사자(판사, 검사, 변호사)를 1차 독자로 상정하여 작성되었습니다. 기술적 세부 사항은 §2~§8 및 부록을 참조하십시오. 본문의 모든 추정치에는 〔추정치〕 표기가 부착되어 있으며, 〔실측〕 표기가 없는 수치는 이론적 투영값임을 전제하고 읽어 주십시오.
9.1 이 연구가 법조계에 제기하는 핵심 질문
대법원이 선별 공개한 판례 300건을 기준으로 측정한 결과, K-Law의 판결 주문 일치도는 73%〔실측〕였습니다. 동일 모집단에서 인간 원심(2심)의 일치도는 45%〔실측, 예비측정치〕, 인간 1심의 일치도는 47%〔실측, 예비측정치, n=100〕였습니다.
이 수치들은 법조계에 다음의 질문을 제기합니다.
첫째, 인간 법관이 대법원 판결과 45~47%만 일치한다는 사실은 무엇을 의미하는가. 이것은 법관 개인의 역량 문제인가, 아니면 사법 구조의 내재적 불확실성인가.
둘째, AI 시스템이 동일 기준에서 73%의 일치도를 달성한다는 것은, 법리 판단의 일정 영역이 알고리즘으로 재현 가능함을 의미하는가.
셋째, 만약 사실관계가 완전하게 확정된다면, 대법원 판결의 결론은 예측 가능한 것인가, 아니면 법관의 재량과 판단은 본질적으로 비결정론적인가.
본 결론부는 이 세 질문에 대해 데이터 과학적 관점과 법철학적 성찰을 함께 제시합니다.
9.2 선택 편향의 구조 — 수치 해석의 전제
9.2.1 측정 모집단의 위치
본 연구의 세 수치(73%, 45%, 47%)는 모두 동일한 모집단, 즉 대법원이 사법공보에 선별 공개한 극소수의 판례에서 측정된 값입니다.
법원행정처 「2025 사법연감」에 따르면 2024년 법원에 접수된 소송 사건은 총 691만 5,400건입니다. 이 중 민사 본안 상고심 접수는 1만 3,026건(과다 소송 제외 기준), 형사 상고심은 2만 4,889건에 달합니다. 반면 대법원이 사법공보에 판례로 공개하는 건수는 연간 수백 건에 불과합니다. 전체 소송 대비 0.01% 미만, 상고심 접수 대비로도 2~3%에 해당하는 극소수의 집합입니다.
이 집합에는 구조적 특성이 있습니다. 대법원이 공개를 결정하는 판례는 그 자체로 "하급심 간 견해가 극명히 갈리거나, 새로운 법리를 선언하거나, 기존 판례를 변경할 필요가 있는 사건"입니다. 바꿔 말하면, 법리 판단이 가장 어렵고 불확실성이 가장 높은 사건들의 집합입니다.
이 모집단에서 인간 원심의 일치도가 45%에 불과한 것은, 원심 법관의 능력 부족이 아니라 측정 대상 자체의 극단적 난이도를 반영합니다. K-Law 73%는 이 최고 난이도 기준에서의 하한값이며, 전체 사건으로 확장하면 87~92%로 상향 추정됩니다〔추정치 — Layer 1·2 실측 부재, ±5%p 신뢰구간〕.
9.2.2 1심이 2심보다 일치도가 높은 역전 현상
본 연구에서 확인된 흥미로운 사실은, 동일 모집단(대법원 공개 판례)에서 인간 1심(47%)이 인간 2심(45%)보다 대법원과의 일치도가 소폭 높다는 점입니다.
이 역전 현상은 선택 편향의 효과로 해석됩니다. 대법원이 공개하는 법리특수 사건에서는 2심이 1심 판단을 변경할 때, 그 변경이 오히려 대법원의 최종 판단과 어긋나는 경우가 일부 존재합니다. 이는 법리가 복잡한 사건일수록 2심의 교정적 개입이 반드시 더 정확하지는 않음을 통계적으로 보여줍니다. 전체 소송 사건에서는 2심이 1심보다 일치도가 높을 것으로 추정되나〔추정치〕, 이 역전 현상은 상급심 교정의 한계에 관한 실증적 단서를 제공합니다.
9.3 73% 일치도의 구조적 해석
9.3.1 K-Law가 원심보다 대법원에 가까운 이유
원심(사실심)과 K-Law의 판단 구조는 본질적으로 다릅니다.
원심은 사실관계를 새로 인정하고 증거를 직접 평가하는 사실심입니다. 원심의 오류는 사실인정의 오류, 법관 개인의 성향적 분산, 사건 처리량 과부하에 따른 심리 부담이라는 세 가지 원인에서 비롯됩니다〔출처: 사법정책연구원(JPI) 재판 충실화 연구 보고서 및 관련 문헌〕.
반면 K-Law는 사실관계를 새로 인정하지 않습니다. 입력된 사건요지에서 법리 쟁점을 추출하여 대법원 법리 공리 체계로 판단합니다. 이것은 구조적으로 법률심의 추론 방식입니다. 대법원이 수행하는 것은 "원심의 법리 적용이 옳은가"의 심사이고, K-Law가 수행하는 것도 "이 사건에 어떤 법리가 적용되어야 하는가"의 판단입니다.
K-Law가 원심(45%)보다 대법원에 27%p 더 일치하는 것은 우연이 아니라 구조적 필연입니다.
9.3.2 28%p 격차가 의미하는 것
28%p 격차는 두 가지로 해석 가능합니다.
하나는 사실심의 사실인정 오류가 법리 판단의 정확도를 얼마나 훼손하는가를 역으로 보여주는 수치입니다. 원심이 사실관계를 잘못 인정하면, 그 위에서 이루어지는 법리 적용도 필연적으로 틀릴 수 있습니다.
다른 하나는 원심(1심과 2심 모두 포함)의 법리 판단 자체가 대법원과 구조적 거리를 갖는다는 해석입니다. 이 경우 28%p는 사실심 법관과 법률심 법관 사이의 법리 해석 분산을 의미합니다.
어느 해석이 주된 원인인지를 판별하려면 사실관계가 동일하게 고정된 상태에서 1심, 2심, 대법원의 법리 판단만을 비교하는 통제 실험이 필요합니다. 이는 본 연구의 후속 과제입니다.
9.4 73% 정체의 원인 — 방법론이 아닌 데이터의 문제
9.4.1 수확 체감 곡선의 의미
K-Law는 v13.2(35%)에서 v15.1(73%)까지 방법론 갱신을 통해 38%p를 향상시켰습니다〔출처: github.com/nounweb/k-law/benchmarks, 부록 C 참조〕. 그러나 v15.x 이후 방법론 갱신의 한계 효과는 3~5%p에 불과합니다〔추정치〕.
이 수확 체감은 방법론의 실패가 아닙니다. 오히려 방법론이 해결 가능한 영역을 이미 대부분 소진했다는 신호입니다.
현재 K-Law의 일치도 함수는 다음과 같이 모델링됩니다.
A(v, g) = f(v) × g
여기서 f(v)는 방법론 품질 계수(현재 v15.x에서 약 0.93〔추정치〕), g는 입력 정보 완전성 계수입니다. 현재 입력(A4 1페이지 사건요지 요약본)의 g값은 Ablation Study를 통해 0.785로 측정되었습니다〔실측: 동일 100건 테스트셋 대상, 요약본 73.4% vs 원본 전문 93.5%, g = 73.4 ÷ 93.5 ≈ 0.785〕.
이 공식의 핵심은 다음입니다: f(v)가 이론적 최대값(1.0)에 수렴하더라도, g = 0.785이면 A의 상한은 78.5%에 불과합니다. 방법론을 아무리 고도화해도 현재 입력 형식으로는 79%를 넘을 수 없습니다.
9.4.2 잔여 27% 불일치의 구조
현재 27%의 불일치는 방법론으로 해결 가능한 영역을 이미 벗어났습니다. 그 내부 구조는 다음과 같습니다.
| 유형 | 비율 | 해소 방법 |
|---|
|------|------|---------|
| 역추정 오류 — 대법원 모방 설계에서 원심 판단을 역추정하는 과정의 구조적 오류 | 약 6%〔추정치〕 | 독립 법리 판단 엔진(방향 B)으로 설계 전환 시 구조적 소멸 |
|---|---|---|
| 사실관계 미확정 — 법률심에 회부된 사건의 사실 기술 불완전성 | 약 8%〔추정치〕 | 완전한 사실 입력(V-1~V-4 검증 메커니즘) 시 해소 |
| 전원합의체 판례 변경 — 측정 시점 이후 판례 자체가 변경된 사건 | 약 4%〔추정치〕 | 원천 해소 불가(미래 예측의 구조적 한계) |
| LLM 고유 오류 — 맥락 유실·환각·포맷 실패 | 약 3%〔추정치〕 | 판례 DB 연동(RAG) 시 0.1% 미만으로 통제 가능〔근거: EMNLP 2024 Legal-NLP Workshop 실증 벤치마크〕 |
네 유형의 단순 합계는 21%이며, 잔여 6%p는 유형 간 중첩(동일 사건에서 복합 발생)과 분류 불능 노이즈에 기인합니다. 네 유형은 상호 배타적이지 않으며, 이 점을 방법론 장에 명시합니다.
9.5 사법 불확실성 소멸 시나리오 — 데이터 완전성의 함수
9.5.1 법관의 불확실성과 AI의 불확실성은 다른 종류이다
법조계의 첫 번째 우려는 통상 이것입니다: "법원 판결은 사실과 법리가 복잡하게 얽혀 있으며, AI가 이를 재현할 수 없다."
이 우려는 타당하지만, 불확실성의 원인을 혼동하고 있습니다.
인간 법관의 불확실성에는 두 가지 원천이 있습니다. 하나는 사실의 불확실성, 즉 무엇이 실제로 일어났는가에 관한 불확실성입니다. 다른 하나는 법리의 불확실성, 즉 확정된 사실에 어떤 법적 결론이 귀속되어야 하는가에 관한 불확실성입니다.
K-Law의 현재 73% 일치도는 두 번째 불확실성, 즉 법리 판단 영역에서 73%를 달성했다는 것을 의미합니다. 첫 번째 불확실성(사실 판단)은 아직 K-Law의 입력 단계에서 해소되지 않았으며, 이것이 나머지 불일치의 주요 원인입니다.
달리 말하면: 사실이 완전히 확정된다면, 법리 판단의 불확실성은 현재 수준보다 훨씬 더 통제 가능합니다.
9.5.2 사실 완전성 단계별 시나리오
사실 완전성 수준(g값)과 K-Law 예상 일치도의 관계는 다음과 같습니다.
| 사실 완전성 단계 | g값 | K-Law 예상 일치도 | 비고 |
|---|
|--------------|------|----------------|------|
| 현재 (사건요지 요약본, A4 1p) | 0.785 | **73%** | 실측값 |
|---|---|---|---|
| 독립 법리 판단 엔진(방향 B) 전환 후 | 0.785 | **약 79%** | 역추정 오류 6%p 해소〔추정치〕 |
| 사실 구조화 + 증거 연결 (V-1·V-2 적용) | 약 0.85 | **약 88%** | 추정치〔±5%p〕 |
| 상충 주장 해소 포함 (V-1~V-3 적용) | 약 0.93 | **약 94%** | 추정치〔±5%p〕 |
| 모든 요건사실 완전 확정 (V-1~V-4 완전 적용) | 약 0.999 | **약 99.9%** | 이론적 상한〔미실증〕 |
이론적 상한 99.9%에서 잔존하는 0.1%는 LLM 아키텍처의 확률론적 특성에서 기인하며, 이 점은 현재 기술 수준에서 불가결한 한계입니다.
단, 이론적 상한의 전제는 세 가지 조건을 요구합니다. 법령·판례가 불변할 것, 모든 사실이 완전히 확정될 것, 대법원의 판단이 순수한 논리·법리적 추론에 의할 것입니다. 세 번째 조건은 법철학적으로 논쟁적입니다. 전원합의체 의견 변경, 소수의견의 존재, 시대에 따른 법리 진화는 모두 판결의 비결정론적 요소를 가리킵니다. 이론적 상한은 이 조건들을 단순화한 계산상의 천장이지, 사법 과정의 현실적 묘사가 아닙니다.
9.5.3 전원합의체 판례 변경이 의미하는 바
잔여 불일치 중 약 4%는 어떤 방법론으로도 해소할 수 없습니다. AI 시스템은 기존 대법원 공리계를 추종하므로, 전원합의체가 그 공리계 자체를 변경하는 사건은 원천적으로 예측 불가능합니다.
이것은 AI의 한계이기도 하지만, 동시에 사법의 본질이기도 합니다. 법은 변합니다. 사회적 합의가 달라지고, 정의의 내용이 진화하며, 법관의 집단적 판단이 축적되면서 판례는 스스로를 갱신합니다. 이 4%의 예측 불가능 영역은 법이 단순한 논리 기계가 아니라, 시대와 함께 호흡하는 규범 체계임을 보여주는 실증적 증거입니다.
9.6 법조계에 대한 함의 — 세 가지 명제
명제 1: K-Law는 판사를 대체하지 않는다. 사실 불확실성을 감소시킨다.
K-Law의 현재 역할은 판결을 대신 내리는 것이 아닙니다. 주어진 사실관계 하에서 법리적으로 정합적인 결론이 무엇인지를 빠르게 산출하여, 소송 당사자와 법률 대리인이 더 나은 정보를 바탕으로 의사결정을 내릴 수 있도록 돕는 것입니다.
인간 원심이 대법원과 45~47%밖에 일치하지 못하는 현실에서, 소송 당사자는 자신의 사건이 어떻게 판결될지에 대한 합리적 기대를 갖기 어렵습니다. K-Law는 이 불확실성의 일부를 정량적으로 감소시킵니다.
특히 법률 대리인의 역할에 주목할 필요가 있습니다. 변호사는 의뢰인에게 "이 사건이 대법원까지 가면 어떻게 될 것인가"를 조언합니다. K-Law는 이 조언의 법리적 기초를 체계적으로 점검하는 도구로 활용될 수 있습니다. 이것은 법률 실무를 자동화하는 것이 아니라, 법리적 검토의 범위를 넓히고 사각지대를 줄이는 것입니다.
명제 2: 사실심의 핵심 가치는 불확실성의 해소, 즉 사실 확정이다.
본 연구는 역설적으로 사실심의 불가결성을 실증합니다.
K-Law의 법리 판단 엔진이 아무리 정교해져도, 사실이 확정되지 않으면 정확한 판단이 불가능합니다. 입력 정보의 완전성 계수 g가 0.785에 머무는 한, 일치도의 상한은 78.5%입니다. 사실관계를 확정하는 행위 — 당사자의 말을 듣고, 증거를 평가하고, 진실에 가장 가까운 사실관계를 법적으로 인정하는 행위 — 는 어떤 AI 시스템도 대체할 수 없는 사법의 핵심 기능입니다.
이 관점에서, 향후 사법 AI의 발전 방향은 "판결 생성"이 아니라 "사실 확정 지원"에 있습니다. 구조화된 사실 명제의 정리, 증거와 주장 간의 논리적 연결, 요건사실 충족 여부의 사전 점검 — 이러한 영역에서 AI가 법관의 심리 부담을 경감하고 사실 확정의 정밀도를 높이는 것이 현실적이고 건설적인 기여입니다.
명제 3: 73%는 출발점이다. 법리 판단 가능성의 하한값이다.
본 연구의 73%는 가장 어려운 사건(법리특수, 전원합의체 논의 대상, 하급심 견해 불일치)에서 측정된 하한값입니다. 전체 소송 사건으로 확장하면 87~92%로 상향 추정됩니다〔추정치〕.
동시에 이 수치는, 법리 판단의 상당 부분이 알고리즘으로 재현 가능하다는 실증적 근거입니다. 대법원이 판례를 통해 선언한 법리는 사건요지 1페이지라는 제한된 정보만으로도 73%의 정확도로 재현 가능합니다. 이것이 함의하는 바는 명확합니다. 법리 그 자체는 상당한 수준의 체계성과 예측 가능성을 갖추고 있습니다.
9.7 향후 연구 과제 — 법조계의 참여가 필요한 영역
본 연구의 학술적 완성을 위해 법조계의 협력이 필요한 연구 과제가 있습니다.
인간 전문가 블라인드 평가: K-Law 판단과 대법원 판결을 비교하는 법학 전문가 3인 이상의 독립 평가(Cohen's κ 또는 Cronbach's α 산출). 현재 평가는 LLM 기반으로 수행되며, 노이즈가 포함되어 있습니다. 인간 전문가 평가를 통해 일치도 측정의 신뢰도를 검증해야 합니다.
Layer 1·2 사건의 실측: 현재 측정은 대법원 공개 판례(Layer 3)에 한정됩니다. 1심 확정 사건(Layer 1, 전체의 약 79%)과 2심 확정 사건(Layer 2-A, 약 15%)에 대한 실측 데이터를 확보하여 가중 평균 일치도 87~92% 추정치를 검증해야 합니다.
완전 사실 입력 파일럿: 의뢰인의 협조 하에 실제 사건에 대해 V-1~V-4 사실 검증 메커니즘을 적용한 완전 사실 입력 환경에서의 일치도를 실측합니다. 이 실험은 g값 단계별 향상 추정치〔추정치〕를 실증적으로 검증하는 핵심 연구입니다.
법리 판단 오류의 유형화: 잔여 불일치 27%의 내부 구조(D-1~D-4)는 현재 연구팀의 추정치입니다. 법학 전문가의 개별 사건 검토를 통해 오류 유형을 정밀 분류하고 비율을 실측할 필요가 있습니다.
9.8 결론 — 사법 불확실성의 두 가지 얼굴
사법 불확실성에는 두 가지 얼굴이 있습니다.
하나는 제거해야 할 불확실성입니다. 사실 확정의 불완전성, 법리 해석의 불필요한 분산, 심리 부담으로 인한 오류 — 이것들은 사법의 이상과 현실 사이의 간극이며, 기술과 제도의 개선을 통해 좁혀야 할 영역입니다. K-Law의 73% 대 원심의 45%라는 격차는 이 간극의 일면을 수치화한 것입니다.
다른 하나는 보존해야 할 불확실성입니다. 전원합의체 판례 변경이 만들어내는 4%의 예측 불가능 영역은 법이 사회와 함께 진화한다는 사실의 반영입니다. 어떤 알고리즘도 미래의 가치 변화를 예측할 수 없으며, 예측해서도 안 됩니다. 이 불확
K1 = 100% − α(2.5%)
K2 = 90.0%
K3 = 75% + β(5%)
= (0.80 × 0.975) + (0.15 × 0.90) + (0.05 × 0.80)
= 0.7800 + 0.1350 + 0.0400
= 0.9550 → 95.5%