정규표현식 Lookaround (Lookahead, Lookbehind) 알아보기

Regex Lookaround match 란?

일치하는 텍스트를 매칭하고 싶을 때가 아니라, 일치하는 텍스트의 앞, 뒤를 매칭하고 싶을 때 사용하는 정규표현식이다.

정규표현식에서 일치하는 영역을 반환하는 동작을 소비(consume) 라고 표현한다. 보통 Regex Lookaround match 는 소비(consume) 를 원하지 않을 때 사용한다.

<html>
  <title>제목</title>
</html>

<title></title> 태그 안에 있는 내용만 얻고 싶다면?

Regex Lookaround 를 이용하지 않는다면?

그런데 우리는 Regex Lookaround 를 이용할 것이다.

.*(?=<title>)

<title> 을 제외한 앞부분이 매칭되었다.

(?<=<title>).*

<title> 을 제외한 뒷부분이 매칭되었다.

몇몇 브라우저에서는 후방탐색 자체를 지원 안하니 주의해야 한다.

사파리는 후방탐색을 지원하지 않는다.

(?<=<title>).*(?=<\/title>)

드디어 문제를 해결했다.

<title> 뒷부분이면서, </title> 의 앞부분을 매칭한다.

I paid $30 for 100 apples,
50 oranges, and 60 pears.
I saved $5 on this order.

여기서 숫자를 뽑고 싶지만, $ 뒤에 있는 숫자는 제외하고 싶다면?

\b(?<!\$)\d+\b

위와 같이 부정형 후방 탐색을 이용할 수 있다.

전방 탐색과 후방 탐색 (Regex Lookaround match) 이란? (0)	2023.04.04
정규표현식 ? (물음표) 기호 사용법 (non-greedy matching, lazy-quantifier) (0)	2023.04.02