홈
토픽
스파링
잉크
미션
전문가 신청
베리몰
나도 질문하기
생활
탈퇴한 사용자
파이썬으로 셀레니움을 사용해 로그인후 , 링크의 리스트를 크롤링해서 각 링크마다 새 창으로 띄워서 새 창에서 디스플레이되는 정보들을 크롤링하는 툴을 만들고있습니다.
문제는 이게 너무 느립니다. 데이터 20개정도 읽어오는데 7초정도가 걸리더라구요.
좋은 알고리즘이나 괜찮은 방식 있을까요?
2개의 답변이 있어요!
pay2id.com
속도가 느린이유는 병렬처리가 아니기때문에
느린것이구요
이를 해결하기 위해서는
한개링크 접속후 자료 가져오기
또 한개링크 접속후.자료 가져오기
이 부분을 한번에.링크를 던져서 각개전투로
링크의 자료를 가져오게 하면 상당히 빠른 속도를 보실수 있으실겁니다
이걸 설명해드릴려면 상당히.많은.내용을 적어야 해서
설명이 잘 되어 있는.블로그를 추천합니다
https://beomi.github.io/2017/07/05/HowToMakeWebCrawler-with-Multiprocess/
위 링크로 가시면 정말로 상세한 내용과 함께
왜 속도가 느린지 어떤 해결책이 있는지를
아주 상세히 알려드립니다
응원하기
하얀고슴도치236
정확한 소스코드를 보여주셔야 도와드릴수있을것같습니다.
그리고 보통 셀레니움을 사용하였을때 너무 느린 경우에는 차라리 크롬 개발자도구를 이용하여 크롤링 하신 후 해당 데이터를 따로 저장하시는게 속도 면에서는 보통 더 빠릅니다.
그 후에 해당하는 크롤링정보를 ajax를 통하여 다른 곳으로 보내서 저장하신다던가.
localStorage 등으로 따로 저장해두었다가 꺼내서 사용하시면 셀레니움보다 빠르게 파싱이 가능하실겁니다.