웹스크래핑(6)
-
user agent
https://www.whatismybrowser.com/detect/what-is-my-user-agent/ What is my user agent? Every request your web browser makes includes your User Agent; find out what your browser is sending and what this identifies your system as. www.whatismybrowser.com import requests url='http://nadocoding.tistory.com' headers ={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHT..
2024.03.11 -
정규식
import re # abcd, book, desk # ca?e # care, cafe, case, cave #case, ca~~ 너무 힘든 과정 p=re.compile('ca.e') #. (ca.e): 하나의 문자를 의미 # care, cafe | caffe x #^(^de) : 문자열의 시작 -> desk , destination | fade x # $ (se$) : 문자열의 끝 > case, base , |fcae x def print_match(m): if m: print('m.group():',m.group()) #일치하는 문자열 반환 print('m.string():',m.string) #입력받은 문자열 print('m.start():', m.start()) #일치하는 문자열의 시작 index..
2024.03.11 -
[웹스크래핑]requests
import requests # res = requests.get('http://naver.com') res= requests.get('http://google.com') print('응답코드:', res.status_code) #200출력하면 정상 응답코드 : 20 #if문으로 웹스크래핑이 가능한지 검새해보기 if res.status_code == requests.codes.ok: print('정상입니다') else: print('문제가 생겼습니다. [에러코드', res.status_code, ']') res.raise_for_status() #문제가 생길 때 오류를 내밷고 프로그램을 끝낼 수 있도록 도와준다. print('웹 스크래핑을 진행합니다') print(len(res.text)) #가져온 글자
2024.03.11 -
XPath
XPath(XML Path Language)는 W3C의 표준으로 확장 생성 언어 문서의 구조를 통해 경로 위에 지정한 구문을 사용하여 항목을 배치하고 처리하는 방법을 기술하는 언어이다. XPath의 기초 : XPath는 로케이션 패스에의해 표현됨. 로케이션 패스란 트리구조로부터 특정 요소를 지정하기 위한 식과 같은 것임. 로케이션 패스는 URL과 같이 '/'를 이용해 요소를 연결하여 작성함. class와 같이 요소를 결부하는 속성을 XPath에서는 '@'로 표현함. '12000원'이라는 요소를 취득하고 싶은 경우에는 다음과 같이 사용함. -> /html/body/div/span[@class='regular_price'] //를 사용하여 중간의 패스를 생략 XPath는 '//'를 이용하여 노드 패스를 생략..
2024.03.11 -
html 기초 구조
HTML 삽입 미리보기할 수 없는 소스 : 폰트가 꺠지는 것 방지 : 인풋한 텍스트 보여짐 : 패스워드 엘리먼트 출력 구글로 이동하기 : 하이퍼링크 달기
2024.03.11 -
웹스크래핑
#html 기본 형태 #본문내용 구글로 이동하기 requests 모듈 import requests #res=requests.get('http://naver.com #get을 이용해 링크 가져오기 res=requests.get('http://google.com') #res=requests.get('http://nadocoding.tistory.com') print('응답코드 :',res.status_code) #status_code : 200출력은 정상 # if res.status_code==requests.codes.ok: # print('정상입니다') # else: # print('문제가 생겼습니다. [에라코드 :]',res.status_code,']') res.raise_for_status() #옳바..
2023.10.01