본문 바로가기
후기/강의

파이썬 동영상 강의 - 탈잉 손원준 튜터

by 정보알려주는언니 2021. 7. 1.

[이전글] 파이썬 기초 리뷰

2021.05.26 - [후기/강의] - [탈잉 손원준튜터] 직장인을 위한 파이썬 기초 - 파이썬기초

 

 

그동안 미뤄왔던 파이썬 강의 리뷰를 작성하고자 한다.

이전 강의인 파이썬 기초는 5월 8일에 들었으니, 아마 웹크롤링 기초/심화는 각각 15일/22일에 들었을것으로 추정된다.

사실 포스팅 하는것을 계속 잊고있었는데 손원준 튜터님께서 어떻게 내 블로그를 찾으시고 직접 덧글을 달아 주셨다.

보고 그냥 지나칠 수 있는데, 저렇게 정성스럽게 덧글을 달아주시다니.. 감개무량 심지어 글도 잘쓰신다. 멋졍ㅜㅜ

열심히 포스팅해드려야지! 강의 다 듣고 리뷰도 작성하러 가야겠다 총총

 

 

 

웹크롤링

직역하자면, 거미줄을 기어가다라는 뜻이다. 우리가 사용하는 웹페이지들은 서로 연결되어있는데 그 모습이 마치 거미줄같다고 해서 웹이라는 말이 붙었다고 한다. 그 웹에서 내가 원하는 정보만 수집해오는 행위를 웹 크롤링이라고 한다. 예를들어 유튜브에서 원하는 덧글들만 수집하는 행위 / 메일함에서 메일들을 수집해오는 행위를 통털어 모두 웹 크롤링이라고 일컫는다. 

 

 

 

웹크롤링 기초/심화 커리큘럼


01
크롤링 기초/심화 커리큘럼

웹크롤링 기초/심화편의 커리큘럼은 위와같이 구성되어있다. 기초편과 심화편의 차이점이라면 모듈의 차이라고 볼 수 있다. 

기초편에서 알려주신 Beatifulsoup이라는 모듈을 이용하면 약 80%이상의 사이트를 크롤링해올 수 있지만, 

로그인이 필요한 사이트나 ajax호출 / scroll등 더 복잡한 사이트에서는 BeatifulSoup를 사용할 수 없다.

이는 selenium이라는 모듈을 사용하면 되는데, 무조건 selenium을 사용한다고 좋은것은 아니다. 

selenium은 속도가 느린 단점이 있기 때문에 Beatifulsoup를 사용할 수 있는 사이트는 최대한 사용하는것이 좋고, 정말 안되는 경우에만 selenium을 사용하는것이 좋다. 

 

 

 

웹크롤링의 원리

예를들어 위와같이 CGV 무비차트 사이트가 있다. 

내가 원하는 자료는 무비차트의 영화 제목과 예매율 개봉일자등 화면에 그려진 데이터들을 자동화해서 가져오고싶을 수 있다. Chrome의 개발자도구(F12)를 열고 해당 영역의 html 코드를 분석하면 된다.

 

위의 영역이 1순위 미드나이트의 html 코드인데, 다른순위 코드들을 펼쳐서 보게되면 코드 구성방식이 동일하다는 점을 알 수 있다. 

결국 크롤링의 원리는 위처럼 html 코드들을 분석해서 내가 원하는 자료들을 가지고 오는 것임을 알 수 있다.

 

그런데, 컴퓨터는 원하는 정보를 찾기 위해서는 화면에 뿌려진 모든 html을 조사하여야한다. 

강의에서는 이를 쉽게 설명하기 위해 컴퓨터에게 노가다 시키는 것이라고 설명해주셨다. 

 

 

 

HTML코드에 대한 설명


크롤링을 하기 위해서는 HTML의 요소나 태그, 속성등을 기본적으로 알고 있어야한다.

이 강의의 경우 직장인을 위한강의이다보니, HTML이 뭔지 모르는 사람들이 대다수일 것이다.

그래서 첫 강의 많은 시간을 HTML에 대한 설명을 덧붙여 주셨다.

내가 생각하기에 딱 액기스로 기본적인것들만 잘 알려주셔서, 수강생들이 이해하고 응용하기에도 좋을것같았다.

 

 

HTML에서는 조부모/부모/후손관계라는 표현을 쓰셨다.

물론 이 표현은 나도 대학생때 배웠던 내용인데, 당시에 부모? 조부모? 이게 뭔말이람...? 하고 굉장히 헷갈렸던 기억이 있다. 

역시 HTML을 설명하기에 더 쉬운 표현은 없는건가?하는 조금의 아쉬움이 있었다.

 

 

 

총평


나는 개발자로 일을하고있지만 내가 그동한 진행했던 프로젝트에서는 크롤링이나 그와 관련한 기법을 사용할일이 없다보니, 접할기회가 없었다. 그냥 크롤링이라는게 있구나 웹페이지에서 긁어오는거구나 이정도만 알고있었고 하는 방식이 어떤식인지는 전혀 알지 못했다. 

그런데 파이썬을 이용하니 생각보다 정말 쉽게 페이지를 긁어올 수 있고 원하는 데이터를 가져오는것/가공하는것이 이렇게 간단하다는것도 알게되어서 너무나도 유익한 시간이었다.  (물론 내가 관심만 있었다면 java로도 충분히 해볼 수 있었을 텐데^^)

 

 

그리고 이 강의를 직장인분들께 꼭 추천드리고 싶은 이유는, 업무자동화를 할 수 있기 때문이다. 이 강의에서 다뤄본 예제들만 봐도 실무에서 사용할법한 예제들이 엄청많았다. (멜론 차트 뽑아와서 엑셀로 추출하기, 인스타그램 좋아요 자동화 등등) 

나는 내가 만들어보고싶었던것을 한가지 만들어서 실제 사용해보고 있다. 실제 사용해보니 정말 배우기 잘했다는 생각이 들고, 노가다성 업무를 한가지라도 하고있다면 반드시 배워두는것을 추천한다! 

 

 

강의 수강은 아래링크를 통해 가능하다.

 

직장인을 위한 파이썬 기초

스마트한 업무의 필수 조건

taling.me

 


댓글