디지털·가전제품

데이터 분석 시 크롤링을 비추천하는 이유

안녕하세요,

데이터를 공부하는 학생입니다.

데이터 테이블이 업데이트 되는 시간이 느려서 크롤링으로 직접 데이터를 쌓으려 하는데요,

멘토님께서 테이블이 이미 있다면 크롤링은 안하는게 좋다고 하셨습니다. 유지보수가 어렵다고 하셨어요.

유지보수 이외에 다른 이유가 있을까요? 감사합니다.

1개의 답변이 있어요!

  • 웹사이트는 구조가 수시로 바뀌기 때문에 아주 작은 디자인 변경만으로도 크롤링 코드가 작동하지 않아 멘토님 말씀대로 유지보수 비용이 매우 큽니다. 유지보수 외에도 가장 큰 문제는 법적 리스크와 보안 차단으로, 많은 사이트가 무단 크롤링을 약관으로 금지하며 대량의 요청이 들어오면 IP를 영구 차단합니다. 또한 크롤링은 서버에 의도치 않은 과부하를 주어 상대 웹사이트의 서비스를 방해할 수 있고, 이는 도스(DoS) 공격으로 오인받을 수 있습니다. 마지막으로 공식 데이터 테이블과 달리 크롤링한 데이터는 누락이나 중복, 형태 깨짐이 잦아 이를 다시 정제하는 데이터 전처리 과정에 훨씬 더 많은 시간과 노력이 낭비됩니다.

    채택 보상으로 29베리 받았어요.

    채택된 답변