법률
인스타그램 크롤러: 로그인 및 비로그인 자동 크롤링이 가능한가요?
Playwright나 Selenium, Instaloader를 활용해서 Instagram 자동 크롤러를 만들고자 했습니다. 하지만 다음과 같은 문제들로 인해 실제 구현이 거의 불가능한 것이 아닌가 하는 의문이 들고 있습니다.
Playwright 사용 시: 헤드리스 모드에서 로그인 페이지에 도달하기도 전에 인스타그램에서 바로 차단당했습니다. 브라우저를 띄우지 않아서 그런지 IP나 봇 탐지 이슈가 있는 것 같습니다.
Instaloader 사용 시: 로그인 시 본인 확인 창이 뜨고, 이를 인증하면 다시 비밀번호 변경을 요구합니다. 반복적으로 로그인 불가 상태가 발생합니다.
이처럼 로그인 기반 방식은 정상적인 인증을 마쳐도 무한 루프처럼 로그인-인증-비번변경을 반복하게 되고, 비로그인 방식은 기본적으로 게시글 접근에 제한이 많아 의심이 듭니다.
📌 제가 만들고 싶은 Instagram 크롤러는 다음과 같습니다:
타겟 계정: 총 8개 (예: @abc, @example_user1 등)
수집 항목: 각 계정의 최근 게시물 이미지, 영상, 캡션
수집 조건:
30분마다 실행
해당 시점으로부터 30분 이내에 올라온 게시글만 저장
중복된 게시물은 저장하지 않음
환경:
Vultr Ubuntu 서버 (24시간 실행 목적)
Python + Playwright (headless)
텔레그램 알림 기능 내장
✅ 추가 요구사항
서로 다른 두 계정의 캡션 유사도가 40% 이상일 경우 텔레그램 알림 전송
게시글 클릭다운로드 사이 **320초 랜덤 지연**, 계정 간 60~120초 랜덤 지연
다운받은 자료는 5일 뒤 자동 삭제
❓질문
인스타그램 자동 크롤링은 지금도 실현 가능한가요? (로그인 or 비로그인)
Playwright로 세션 유지를 하여 장시간 로그인 상태를 유지할 수 있을까요?
Vultr 서버가 아니라 제 로컬 맥북에서 실행해도 유사한 결과를 얻을 수 있을까요?
이 작업을 24시간 안정적으로 자동화한 경험이 있는 분이 계시면, 어떤 접근법을 추천하실지 궁금합니다.
아직 답변이 없어요.