인공지능 데브코스 6기

[인공지능 데브코스 TIL] 0828 웹 스크래핑 기초 (1): HTTP 요청 주고받기

비쵸비쵸비 2023. 9. 2. 16:26
728x90

프로그래머스 인공지능 데브코스 2주차 강의를 정리한 글입니다.


HTTP

  • HTTP(HyperText Transfer Protocol): 웹 상에서 정보를 주고받기 위한 약속
  • HTTP 요청(request): 클라이언트가 서버에게 정보 요청
  • HTTP 응답(response): 서버가 클라이언트에게 응답

HTML

  • HTML(HyperText Markup Language)
    • 태그로 감싼 요소의 집합으로 이루어져 있다.

→ 우리가 원하는 내용이 HTML 문서에 어디에 있는지, 어떤 태그로 묶여있는지를 관찰해야한다.

  • Head: 문서에 대한 정보(제목, 언어 등)
  • Body: 문서의 내용(글, 이미지, 동영상 등)

웹 스크래핑과 웹 크롤링

  • 웹 스크래핑: 특정한 목적으로 특정한 웹 페이지들로부터 원하는 정보를 추출하는 것
  • ex) 날씨 데이터, 주식 데이터 등
  • 웹 크롤링: URL을 타고 다니며 반복적으로 데이터를 가져오는 과정
  • ex) 검색 엔진의 웹 크롤러(검색했을 때 미리보기로 보이도록 하는 부분)
  • 윤리적으로 웹 스크래핑과 크롤링을 하기 위해서는 수익 창출을 하지 않아야하고, 서버에 과한 요청을 보내지 않도록 해야한다.

파이썬으로 HTTP 통신하기

  • request라이브러리
    • .get: 서버에 정보 요청
    • .headers: 헤더 확인
    • .text: 바디를 텍스트 형태로 확인
    • .post: 서버에 정보 제공
    • .status_code: 서버의 응답 확인
728x90