종이 문서 텍스트화 OCR제외 알려주세요

Question

OCR로 해도 효율이 너무 떨어지네요..제미나이 돌려봤는데 처음에는 잘 되더니 뒤로갈수록 엉망이에요400페이지나 되는 내용을 텍스트화해야되는데 효율적이고 정확성 높은 방법 알려주세요Pdf라서 휴대폰으로 변환하는것도 한계가 있어요

잔망루피749 · Accepted Answer

400페이지 PDF 텍스트화 작업에서 가장 먼저 확인할 것은 PDF에 텍스트 레이어가 있는지 여부입니다. Acrobat이나 뷰어에서 텍스트를 드래그로 선택할 수 있으면 텍스트 레이어가 내장된 것이고, 이 경우 Adobe Acrobat 내보내기, pdfplumber나 PyMuPDF 같은 Python 라이브러리, 또는 PDF24·Smallpdf 같은 무료 온라인 툴로 빠르게 추출할 수 있습니다.

스캔본이라 진짜 OCR이 필요한 경우라면 Gemini가 뒤로 갈수록 품질이 떨어지는 건 컨텍스트 윈도우 한계 때문이므로, 분할 처리가 핵심입니다. PDF를 20에서 30페이지씩 잘라서 Claude나 GPT-4o에 순차적으로 입력하는 방식이 현재로서는 가장 현실적입니다. 정확도가 중요하다면 Adobe Acrobat Pro OCR이나 ABBYY FineReader가 전문 문서에 특히 강하지만 유료입니다.

스캔본인지 텍스트 레이어가 있는 건지 알려주시면 더 구체적으로 안내드릴 수 있습니다.

PC 주변기기

PC 주변기기

종이 문서 텍스트화 OCR제외 알려주세요