0410 HW
* 라이브러리/모듈이해
BeautifulSoup란 무엇인가?
: 웹 스크레이핑 혹은 웹 크롤링에 필요한 모듈
: text 파일 형식을 html의 태그로 바꿔줌
requests 라이브러리는 무엇인가?
: 서버에 요청할 수 있도록 도와주는 라이브러리
: 서버와 클라이언트가 통신(get, post) 할 수 있도록 도와주는 라이브러리
urllib 라이브러리는 무엇인가?
: 웹 크롤링을 할 수 있게 해주는 것
request와 urllib 라이브러리의 차이
:
*웹스크레이핑
웹 스크레이핑이란?
: 웹사이트에 있는 정보를 수집하는 행위
웹 크롤링이란?
: 웹 크로러는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이고, 웹 크롤러가 하는 작업을 웹 크롤링이라고 함
find()와 find_all()의 차이는 무엇인가?
: find_all() - 리스트 형태로 온다
웹에서 클라이언트와 서버간의 통신 과정을 써라
1. 사용자가 웹 브라우저의 주소창에 주소를 입력한다.
2. 요청: 웹 브라우저는 요청 메시지를 작성해 웹 서버로 발송한다.
3. 요청 메시지 전달: 요청 메시지가 인터넷의 복잡한 통신망을 거쳐 웹 서버에 전달된다.
4. 응답: 웹 서버는 요청받은 정보를 요청자에게 보낸다.
5. 응답 메시지 전달: 응답 메시지가 인터넷의 복잡한 통신망을 거쳐 웹 브라우저에 전달된다.
6. 웹 브라우저가 응답 메시지를 해석해 사용자에게 정보를 출력해준다.
웹에서 서버에서 요청(request)는 하는 방식이 2가지가 있다. 2가지 요청 방식을 쓰고 각 요청방식의 특징을 써라.
: get
- 데이터 북마크가 쉽다
- 길이 제한이 있다
- 브라우저의 주소 표시줄에서 데이터를 검색하는 데에만 사용할 수 있다
- 데이터를 쉽게 저장할 수 있다
: post
- 요청 본문 및 쿼리 문자열에서 입력을 가져온다
- 전달된 데이터는 브라우저 URL의 쿼리 매개 변수에 표시되지 않는다
- 매개 변수는 브라우저 기록에 저장되지 않는다
- 데이터 전송 길이에는 제한이 없다
- 로그인 세부 정보와 같은 중요 기밀 정보를 서버에 안전하게 전달할 수 있도록 지원한다
URL이란 무엇이며 어떻게 이루어져 있는가?
: 웹 문서의 각종 서비스를 제공하는 서버들에 있는 파일의 위치를 표시하는 표준
: '통신 규칙://인터넷 호스트 주소/경로 이름'으로 이루어짐