CIVILAI Korea

프로세스 · 도서 디지털화 + 색인

도면 PDF → 표제 메타데이터 자동 색인

수천 장 발주 도서 PDF 의 표제란을 OCR 로 읽어 ERP / EDMS 에 자동 등록

개념 단계 — 실제 운영 검증 미완

단계

  1. 01. 1. PDF → 이미지 변환 + 표제표 영역 분리

    발주 도서 PDF 를 pdf2image 로 PNG 변환. engineering-drawing-extractor 가 자동으로 도면 영역 / 표제표 영역을 분리한다 (표제표는 보통 우하단 / 좌하단).

  2. 02. 2. 표제표 OCR (도면번호 · 작성자 · 일자 · 발주처)

    표제표 이미지에 Tesseract + 후처리. 한국 도면은 한글 + 영문 + 도면번호 조합이라 한글 OCR 사전 학습 필요 (별도).

  3. 03. 3. 평면도 영역 부가 데이터 (선택)

    표제 외에 도면 본문에서 실명 / 치수 / 출입문 위치 등을 추가 추출하려면 FloorPlanAnalyzer 사용. 정확도 70-80% 이므로 후처리 필수.

  4. 04. 4. ezdxf 로 DXF 부가 메타 검증 (선택)

    PDF 와 함께 DWG / DXF 가 있다면 ezdxf 로 표제 블록 읽어 PDF OCR 결과와 교차 검증.

  5. 05. 5. ERP / EDMS 입력 큐

    추출된 메타를 JSON 으로 정리, 사내 EDMS API 로 일괄 등록. OCR 신뢰도 낮은 항목 (<80%) 만 검수 큐로 빼냄. 검수 큐는 사람이 한 번 훑고 commit.

한국 특수 고려사항

  • 한국 도면 표제 양식이 발주처별로 다름 — 조달청 / LH / 지자체별 템플릿 학습 필요
  • 스캔본 PDF 는 해상도가 낮아 OCR 정확도 떨어짐 — 200dpi 이상 권장
  • 한글 + 영문 + 숫자 + 한자 혼용이라 일반 OCR (Tesseract) 만으로 부족, 한국형 학습 필요

수십 년치 도서가 색인 없이 쌓여있는 한국 시공사 / 설계사 / 감리법인이 일반적. AI 도구 없이는 정리 비용이 수백~수천만원이지만, 자동 OCR 파이프라인으로는 한 명이 일주일에 수천 장 처리 가능.

워크플로우 단순화

PDF 가 디지털 원본이면 (스캔본 아님) 표제 OCR 정확도 95%+ 가능. 스캔본이면 60-80% 정도라 사람이 한 번 검수 필요.

누가 어디서

  • EDMS 담당자: 신규 도서 입고 시 자동 파이프라인 → 검수 큐만 확인
  • BIM 매니저: 구축 도서를 BIM 모델 메타데이터와 연결할 때 사용
  • 감리법인: 인계 도서 검수 시 표제 자동 색인으로 누락 / 중복 확인

왜 한국 특수

  • 도면 표제 양식이 발주처별 / 시기별로 다름. 학습 데이터 별도 구축 필요
  • 한자 (특히 구축 도서) 인식 정확도 낮음. 한자 사전 필요
  • 한국 시공사 EDMS 가 폐쇄형 (외부 API 없는 경우 多), 입력 자동화 채널 사전 협의 필요