파이썬 크롤러 selenium 속도가 너무 느립니다.

파이썬으로 셀레니움을 사용해 로그인후 , 링크의 리스트를 크롤링해서 각 링크마다 새 창으로 띄워서 새 창에서 디스플레이되는 정보들을 크롤링하는 툴을 만들고있습니다.

문제는 이게 너무 느립니다. 데이터 20개정도 읽어오는데 7초정도가 걸리더라구요.

좋은 알고리즘이나 괜찮은 방식 있을까요?

    2개의 답변이 있어요!

    • 속도가 느린이유는 병렬처리가 아니기때문에

      느린것이구요

      이를 해결하기 위해서는

      한개링크 접속후 자료 가져오기

      또 한개링크 접속후.자료 가져오기

      이 부분을 한번에.링크를 던져서 각개전투로

      링크의 자료를 가져오게 하면 상당히 빠른 속도를 보실수 있으실겁니다

      이걸 설명해드릴려면 상당히.많은.내용을 적어야 해서

      설명이 잘 되어 있는.블로그를 추천합니다

      https://beomi.github.io/2017/07/05/HowToMakeWebCrawler-with-Multiprocess/

      위 링크로 가시면 정말로 상세한 내용과 함께

      왜 속도가 느린지 어떤 해결책이 있는지를

      아주 상세히 알려드립니다

    • 정확한 소스코드를 보여주셔야 도와드릴수있을것같습니다.

      그리고 보통 셀레니움을 사용하였을때 너무 느린 경우에는 차라리 크롬 개발자도구를 이용하여 크롤링 하신 후 해당 데이터를 따로 저장하시는게 속도 면에서는 보통 더 빠릅니다.

      그 후에 해당하는 크롤링정보를 ajax를 통하여 다른 곳으로 보내서 저장하신다던가.

      localStorage 등으로 따로 저장해두었다가 꺼내서 사용하시면 셀레니움보다 빠르게 파싱이 가능하실겁니다.