프로세스 · 도서 디지털화 + 색인

도면 PDF → 표제 메타데이터 자동 색인

수천 장 발주 도서 PDF 의 표제란을 OCR 로 읽어 ERP / EDMS 에 자동 등록

개념 단계 — 실제 운영 검증 미완

단계

01. 1. PDF → 이미지 변환 + 표제표 영역 분리

발주 도서 PDF 를 pdf2image 로 PNG 변환. engineering-drawing-extractor 가 자동으로 도면 영역 / 표제표 영역을 분리한다 (표제표는 보통 우하단 / 좌하단).
- ↗ engineering-drawing-extractor
02. 2. 표제표 OCR (도면번호 · 작성자 · 일자 · 발주처)

표제표 이미지에 Tesseract + 후처리. 한국 도면은 한글 + 영문 + 도면번호 조합이라 한글 OCR 사전 학습 필요 (별도).
- ↗ engineering-drawing-extractor
03. 3. 평면도 영역 부가 데이터 (선택)

표제 외에 도면 본문에서 실명 / 치수 / 출입문 위치 등을 추가 추출하려면 FloorPlanAnalyzer 사용. 정확도 70-80% 이므로 후처리 필수.
- ↗ FloorPlanAnalyzer
04. 4. ezdxf 로 DXF 부가 메타 검증 (선택)

PDF 와 함께 DWG / DXF 가 있다면 ezdxf 로 표제 블록 읽어 PDF OCR 결과와 교차 검증.
05. 5. ERP / EDMS 입력 큐

추출된 메타를 JSON 으로 정리, 사내 EDMS API 로 일괄 등록. OCR 신뢰도 낮은 항목 (<80%) 만 검수 큐로 빼냄. 검수 큐는 사람이 한 번 훑고 commit.

수십 년치 도서가 색인 없이 쌓여있는 한국 시공사 / 설계사 / 감리법인이 일반적. AI 도구 없이는 정리 비용이 수백~수천만원이지만, 자동 OCR 파이프라인으로는 한 명이 일주일에 수천 장 처리 가능.

PDF 가 디지털 원본이면 (스캔본 아님) 표제 OCR 정확도 95%+ 가능. 스캔본이면 60-80% 정도라 사람이 한 번 검수 필요.