import re
# 디코딩한 문자열에서 정규 표현식으로 charset 값을 추출합니다.
match = re.search('charset=["\']?([\w-]+)', scanned_text)
match
# ["\']? : 홑따옴표나 쌍따옴표 0 또는 1번 반복
# ([\w-]+) : 알파벳,숫자,언더바(_),대쉬(-) 한 번 이상 반복 그룹
out:
<re.Match object; span=(159, 173), match='charset="utf-8'>
'LLM > 정규표현식' 카테고리의 다른 글
정규표현식 - 첫글자만 대문자인 알파벳 소문자로 바꾸기 (0) | 2022.09.23 |
---|---|
re.sub 함수 : 정규식으로 찾은 내용을 교체 (0) | 2022.01.05 |
r'문자열' : Raw string (Escape에 영향받지 않고 그대로 표시) (0) | 2022.01.02 |
match.group() : 매칭된 문자열 반환하기 (0) | 2021.12.25 |