아하
검색 이미지
생활꿀팁 이미지
생활꿀팁생활
생활꿀팁 이미지
생활꿀팁생활
정겨운개미핥기89
정겨운개미핥기8920.06.27

크롤링은 어떤 프로그램이 가장 쉬운가요?

필요한 웹자료를 긁어모아서 원하는 형태로 가공을 하고자 생각중입니다.

그래서 시간을 단축할 수 있는 크롤링이 가장 최적의 방법이라 생각하고

파이썬을 배우려 준비중에 있는데요, 크롤링 자체가 불법인지

이 부분이 가장 궁금해 먼저 질문드리며...~

크롤링을 하기에 가장 가볍고 쉬운 프로그램은 무엇이있나요?

파이썬이 가장 쉬운가요?

55글자 더 채워주세요.
답변의 개수5개의 답변이 있어요!
  • "크롤링 자체가 불법인지

    이 부분이 가장 궁금해 먼저 질문드리며...~"

    >> 크롤링 자체부터가 우선 웹페이지 제공자가 의도한 사용법이 아니고 대부분이 대용량자료를 크롤링하기때문에

    원하지 않는 트래픽 발생 등으로 정보 제공자에게는 피해를 줄 수 있습니다.

    또한 가져가시는 데이터 또한 데이터의 원저작자가 사이트 혹은 사이트와 협의된 사용자일 확률이 높구요.

    따라서 개인용도로 적은 수준의 크롤링은 대부분 별 문제삼지 않는 경우가 많습니다만....

    대용량 혹은 가져간 데이터를 임의로 가공하여 본인 서비스에 사용하시는 경우 법적인 분쟁요지가 분명히 있습니다.

    따라서 크롤링하여 뭔가 서비스를 기획중이시라면 이 부분에 대하여 차라리 정식으로 해당 업체와 협의하여 데이터를 API 형태로 제공받으시는게 옳습니다.

    "크롤링을 하기에 가장 가볍고 쉬운 프로그램은 무엇이있나요?

    파이썬이 가장 쉬운가요?"

    >> 크롤링은 파이썬뿐만 아니라 모든 웹에 접근이 가능한 언어와 프레임워크로 가능합니다.

    다만 초심자가 처음 해보시기에는 파이썬이 가장 쉽고 예제가 많이 있습니다.


  • 크롤링자체는 불법이 아니나, 크롤링한 데이터를 다시 재가공하여 게시하는등의 행위는 불법입니다.

    이에 대해서는 이전에 엔하위키 저작권 관련 소송을 담당했던 법무법인 민후측에서 만든 슬라이드 ( https://www.slideshare.net/ssuserbd0159/ss-72217534 ) 를 확인하시면 도움이 되실겁니다.

    크롤링을 하기엔 파이썬이 쉽지만, 기본적으로 HTML의 구성을 아셔야 하며, 현재의 트렌드는 잘 모르겠지만 제가 마지막으로 알고있는것은 파이썬 라이브러리중 BeautifulSoup이라는 라이브러리를 이용한 크롤링이 대표적이였습니다.


  • 안녕하세요

    크롤링은 자신이 잘 사용할 수 있는 언어를 이용하여 만드시면 되는데요

    저 같은 경우에는 서버에서 크롤링을 하기때문에 php 를 사용합니다

    마찬가지로 유글레나님도 본인의 능력에 맞는 언어로 제작하시면 되는데요

    처음 배우시는거라면 파이썬 배우시는것도 나쁘지 않습니다

    그리고 크롤링 자체는 불법이 아닙니다

    다만 크롤링 하여 자료를 가져오는곳에서, 콘텐츠에 관하여 명시하는것이 있을텐데요

    퍼가지 마세요,불펌금지,CCL표기등이 있다면 조심해서 해당 콘텐츠를 가져오셔야 합니다

    특히나 가져온콘텐츠를 그대로 보여주는건 많이 위험하다고 보여지구요

    특정 오픈된 자료를 토대로 어떤 새로운 화면을 구성하시는거라면,

    괜찮습니다^^


  • 무단 데이터 크롤링은 불법입니다. 아래 참고 기사 첨부 합니다.

    http://news.bizwatch.co.kr/article/mobile/2017/09/27/0023

    Quora의 이커머스 분석가이자 디지털 매체 전문가인 Alok singh는 다음과 같은 것을 고려해야 한다고 말해주고 있습니다.

    1. 스크랩하는 컨텐츠에 지적재산권이 있는지 2. 크롤링 하는 행동이 사이트에 큰 부담을 주지 않는지3. 크롤러가 사이트의 이용방침을 위반하지 않는지4. 크롤러가 사용자의 민감한 정보를 가져오지 않는지5. 가져온 컨텐츠를 적합한 사용 표준하에 사용하는지

    이 5가지에 유의하여서 크롤링을 하시면 될거 같습니다.

    파이썬에서 selenium 모듈 사용하여서 제작하시는게 가장 간단합니다.


  • 파이썬을 공부하여

    쥬피터 노트북등 간편한 개발툴로 작업하시는게 가장 편할꺼같습니다.

    크롤링을 이용하신다면

    셀레니움과 구글 크롬드라이버를 이용해서 하는것을 권장드립니다.

    굳이 구글 크롬드라이버까지 이용하는 이유는 구글 크롬 드라이버 내에

    가상 드라이버가 존재하여 크롤링을 막아둔 사이트들도 접근이 가능하기 때문입니다.