(Web Crawling) 전국 모든 대학교 이름 출력하기 with Python

Crawling

(Web Crawling) 전국 모든 대학교 이름 출력하기 with Python

hyunjun's developing 🏣 2024. 3. 2. 18:12

정말 오랜만에 블로그를 쓰는 거 같다. 핑계를 대보자면 요즘 정보처리기사 필기 시험, 개인 포트폴리오 준비, 졸업 준비 등등으로 많이 시간이 없었다. 암튼 ! 이번 시간에는 크롤링이다. 크롤링에 관심이 있어서 관련 내용을 인터넷을 찾아보며 공부하다가 알게 된 내용과 오류, 내가 수정한 부분을 써보려고 한다.

먼저 내가 참고한 블로그의 출처를 남기겠다.

https://well-made-codestory.tistory.com/33#03

[Web Crawling] 전국 대학교 이름 크롤링 하여 DB에 저장하기 -1

전국 대학교 이름을 크롤링 하여 DB에 저장하기 -1 개요 Toy Project에서 사용하기 위해 전국의 대학교를 미리 저장하여 DB에 정리하고, 이를 회원가입시에 저장된 DB를 미리 노출 시켜 통일된 양식으

well-made-codestory.tistory.com

1
2
import cloudscraper
from bs4 import BeautifulSoup
cs

cloudscraper는 크롤링할 떄 클라우드 보호를 우회해주기 위한 기능을 제공해주는 라이브러리이다.

BeautifulSoup는 HTML이나 XML에서 원하는 정보를 파싱할 때 필요한 라이브러리이다.

1
2
3
4
5
6
7
8
def get_html(url):              #html 페이지 가져오기
    scraper = cloudscraper.create_scraper()
    html = ""
    g_html = scraper.get(url)
    if g_html.status_code == 200:
        html = g_html.text
        
    return html
Colored by Color Scripter
cs

이 부분은 html 페이지를 가져오는 부분이다.

cloudscraper.create_scraper()는 cloudscraper의 객체를 생성해주는 부분이다.

1
2
3
4
5
6
7
8
9
10
def crawl_html(html):           #가져온 html 페이지의 tag 속 정보 가져오기
    u_list = []
    soup_html = BeautifulSoup(html,'html.parser')
    title = soup_html.find_all('a', class_= "A4OyphEg")
    for t in title:
        tmp = t["title"]
        if '목록' not in tmp:
            u_list.append(tmp)
    s_list = set(u_list)
    return s_list
Colored by Color Scripter
cs

이 부분에서 크롤링을 본격적으로 실시한다. 먼저 빈 리스트를 하나 만들어 둔다. 그 다음 BeautifulSoup 객체를 하나 만들어준다. 그 다음 그 객체의 find_all 메서드를 이용하여 a 태그에 class가 "A40yphEg"인 것을 모두 가져온다. 여기서 내가 수정한 것이 반영이 됐는데 클래스가 주기적으로 바뀌기 때문에 HTML정보를 확인해보고 클래스를 바꿔서 작업을 해야 한다.

그럼 이렇게 출력이 된다. 우리는 잡정보를 제거해주고 이름만을 원한다. 그렇기 때문에 title 속성만을 추출해서 가져와야 한다.

ㄱ그런 다음 이 리스트를 set()으로 중복된 것을 제거해준다. 그런 다음 이것을 리턴해준다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import cloudscraper
from bs4 import BeautifulSoup
 
def get_html(url):              #html 페이지 가져오기
    scraper = cloudscraper.create_scraper()
    html = ""
    g_html = scraper.get(url)
    if g_html.status_code == 200:
        html = g_html.text
        
    return html
 
def crawl_html(html):           #가져온 html 페이지의 tag 속 정보 가져오기
    u_list = []
    soup_html = BeautifulSoup(html,'html.parser')
    title = soup_html.find_all('a', class_= "A4OyphEg")
    for t in title:
        tmp = t["title"]
        if '목록' not in tmp:
            u_list.append(tmp)
    s_list = set(u_list)
    return s_list
 
html = get_html('https://namu.wiki/w/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98%20%EB%8C%80%ED%95%99%EA%B5%90%20%EB%AA%A9%EB%A1%9D')
univ_list = crawl_html(html)
univ_list = list(univ_list)
univ_list.sort()
for univ in univ_list:
    print(univ, end='\n')
 
 
Colored by Color Scripter
cs

전체 코드이다.