400페이지 PDF 텍스트화 작업에서 가장 먼저 확인할 것은 PDF에 텍스트 레이어가 있는지 여부입니다. Acrobat이나 뷰어에서 텍스트를 드래그로 선택할 수 있으면 텍스트 레이어가 내장된 것이고, 이 경우 Adobe Acrobat 내보내기, pdfplumber나 PyMuPDF 같은 Python 라이브러리, 또는 PDF24·Smallpdf 같은 무료 온라인 툴로 빠르게 추출할 수 있습니다.
스캔본이라 진짜 OCR이 필요한 경우라면 Gemini가 뒤로 갈수록 품질이 떨어지는 건 컨텍스트 윈도우 한계 때문이므로, 분할 처리가 핵심입니다. PDF를 20에서 30페이지씩 잘라서 Claude나 GPT-4o에 순차적으로 입력하는 방식이 현재로서는 가장 현실적입니다. 정확도가 중요하다면 Adobe Acrobat Pro OCR이나 ABBYY FineReader가 전문 문서에 특히 강하지만 유료입니다.
스캔본인지 텍스트 레이어가 있는 건지 알려주시면 더 구체적으로 안내드릴 수 있습니다.