[퍼옴] 021년 웹 스크래핑 현황 https://mihaisplace.blog/2021/10/03/the-state-of-web-scraping-in-2021/ - 웹 스크래핑이란 ? - 웹 스크래핑용 메인 프레임워크는 ? ㅤ→ 파이썬 : Scrapy, Beautiful Soup, MechanicalSoup ㅤ→ JS : Cheerio, Puppeteer, Apify SDK ㅤ→ Java : Jaunt, jsoup ㅤ→ Ruby : Kimurai ㅤ→ PHP : Goutte - 기업용 수준의 유료 웹 스크래핑 프레임워크들 ㅤ→ Scraper API : 프록시 로테이션, 캡차 풀기, 안티 봇 체크 지원 ㅤ→ Apify : 커뮤니티에 의해 개발된 수천개의 플러그인 제공 ㅤ→ Parsehub : 데스크탑 앱을 이용한 포인트 앤 클릭 방식 노코드 도구 ㅤ→ Diffbot : 웹에서 수집한 회사/리테일/뉴스/게시판/이벤트 등의 데이터에서 빅데이터/머신러닝을 통한 데이터 추출 지원 ㅤ→ Octoparse : Parsehub처럼 포인트 앤 클릭 방식. IP로테이션 및 정규식 도구를 이용한 데이터 정제, 대용량 스크래핑등을 지원 ㅤ→ ScrapingBee : 복잡한 기능을 제공하는 노 코딩 도구 - 파이썬 웹 스크래핑 예제 : Beautiful Soup 이용 - 자바스크립트(Node.js) 예제 : Puppeteer로 구글 검색 - Do's and Don'ts of Web Scraping ㅤ→ 한개의 IP연결만 이용할 것 ㅤ→ 피크타임이 아닌 시간에 크롤링 할 것 ㅤ→ 사이트의 ToS 지킬 것 ㅤ→ robots.txt 의 룰 준수 ㅤ→ 콘텐츠를 다른 방식으로 보여주기 위해 크롤링 하는 것이라면, 단순 카피가 아닌 유니크한 솔루션일 것 ㅤ→ GDPR / CCPA 룰 지킬 것