re.search 로 utf-8

2021. 12. 25. 19:01

import re

# 디코딩한 문자열에서 정규 표현식으로 charset 값을 추출합니다.
match = re.search('charset=["\']?([\w-]+)', scanned_text)
match
# ["\']?  : 홑따옴표나 쌍따옴표 0 또는 1번 반복
# ([\w-]+)  : 알파벳,숫자,언더바(_),대쉬(-) 한 번 이상 반복 그룹

out:

<re.Match object; span=(159, 173), match='charset="utf-8'>

'LLM > 정규표현식' 카테고리의 다른 글

정규표현식 - 첫글자만 대문자인 알파벳 소문자로 바꾸기 (0)	2022.09.23
re.sub 함수 : 정규식으로 찾은 내용을 교체 (0)	2022.01.05
r'문자열' : Raw string (Escape에 영향받지 않고 그대로 표시) (0)	2022.01.02
match.group() : 매칭된 문자열 반환하기 (0)	2021.12.25

datart

re.search 로 utf-8

'LLM > 정규표현식' 카테고리의 다른 글

+ Recent posts

티스토리툴바