반응형
Jake Seo
제이크서 위키 블로그
Jake Seo
전체 방문자
오늘
어제
  • 분류 전체보기 (715)
    • 일상, 일기 (0)
    • 백준 문제풀이 (1)
    • 릿코드 문제풀이 (2)
    • 알고리즘 이론 (10)
      • 기본 이론 (2)
      • 배열과 문자열 (8)
    • 데이터베이스 (15)
      • Planet Scale (1)
      • MSSQL (9)
      • 디비 기본 개념 (1)
      • SQLite 직접 만들어보기 (4)
    • 보안 (7)
    • 설계 (1)
    • 네트워크 (17)
      • HTTP (9)
      • OSI Layers (5)
    • 회고 (31)
      • 연간 회고 (2)
      • 주간 회고 (29)
    • 인프라 (52)
      • 도커 (12)
      • AWS (9)
      • 용어 (21)
      • 웹 성능 (1)
      • 대규모 서비스를 지탱하는 기술 (9)
    • 깃 (7)
    • 빌드 도구 (7)
      • 메이븐 (6)
      • 그레이들 (0)
    • Java (135)
      • 이펙티브 자바 (73)
      • 자바 API (4)
      • 자바 잡지식 (30)
      • 자바 디자인 패턴 (21)
      • 톰캣 (Tomcat) (7)
    • 프레임워크 (64)
      • next.js (14)
      • 스프링 프레임워크 (28)
      • 토비의 스프링 (6)
      • 스프링 부트 (3)
      • JPA (Java Persistence API) (5)
      • Nest.js (8)
    • 프론트엔드 (48)
      • 다크모드 (1)
      • 노드 패키지 관리 매니저 (3)
      • CSS (19)
      • Web API (11)
      • tailwind-css (1)
      • React (5)
      • React 새 공식문서 요약 (1)
      • HTML (Markup Language) (5)
    • 자바스크립트 (108)
      • 모던 자바스크립트 (31)
      • 개념 (31)
      • 정규표현식 (5)
      • 코드 스니펫 (1)
      • 라이브러리 (6)
      • 인터뷰 (24)
      • 웹개발자를 위한 자바스크립트의 모든 것 (6)
      • 팁 (2)
    • Typescript (49)
    • 리눅스와 유닉스 (10)
    • Computer Science (1)
      • Compiler (1)
    • IDE (3)
      • VSCODE (1)
      • IntelliJ (2)
    • 세미나 & 컨퍼런스 (1)
    • 용어 (개발용어) (16)
      • 함수형 프로그래밍 용어들 (1)
    • ORM (2)
      • Prisma (2)
    • NODEJS (2)
    • cypress (1)
    • 리액트 네이티브 (React Native) (31)
    • 러스트 (Rust) (15)
    • 코틀린 (Kotlin) (4)
      • 자바에서 코틀린으로 (4)
    • 정규표현식 (3)
    • 구글 애널리틱스 (GA) (1)
    • SEO (2)
    • UML (2)
    • 맛탐험 (2)
    • 리팩토링 (1)
    • 서평 (2)
    • 소프트웨어 공학 (18)
      • 테스팅 (16)
      • 개발 프로세스 (1)
    • 교육학 (1)
    • 삶의 지혜, 통찰 (1)
    • Chat GPT (2)
    • 쉘스크립트 (1)
    • 컴파일 (2)
    • Dart (12)
    • 코드팩토리의 플러터 프로그래밍 (4)
    • 플러터 (17)
    • 안드로이드 스튜디오 (1)
    • 윈도우즈 (1)
    • 잡다한 백엔드 지식 (1)
    • 디자인 패턴 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Javadoc 자바독 자바주석 주석 Comment
  • Pre-rendering
  • 외래키 제약조건
  • 자바 디자인패턴
  • 빈 검증
  • try-with-resources
  • 싱글톤 패턴
  • 작업기억공간
  • Next.js
  • 도커공식문서
  • serverless computing
  • 객체복사
  • 참조 해제
  • 디자인패턴
  • 자바스크립트
  • 추상 팩터리 패턴
  • item9
  • 러스트
  • 스프링 검증
  • 싱글톤
  • 플라이웨이트패턴
  • 이펙티브자바
  • 프로그래머의 뇌
  • 자바스크립트 면접
  • item7
  • pnpm
  • 자료구조
  • 메이븐 페이즈
  • 자바
  • prerendering
  • 이펙티브 자바
  • item8
  • next js app
  • NEXT JS
  • 싱글턴
  • 느린 쿼리
  • 메이븐 골
  • 슬로우 쿼리
  • 팩터리 메서드 패턴
  • 알고리즘
  • bean Validation
  • 메이븐 라이프사이클
  • 이펙티브 자바 item9
  • 토비의 스프링
  • MSSQL
  • 자바스크립트 인터뷰
  • 서버리스 컴퓨팅
  • rust
  • Java
  • 자바 검증

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Jake Seo

제이크서 위키 블로그

자바스크립트/모던 자바스크립트

모던 자바스크립트, UTF-16 이슈 해결에 관련된 문자열 함수

2023. 3. 11. 19:41

UTF-16 과 관련된 변화 사항

  • 자바스크립트는 UTF-16 인코딩을 통해 문자를 표현한다.
  • 인코딩 방식에서 생기는 여러 이슈들이 있었는데, ES2015 이후에 이를 해결하기 위해 바뀐 것들이 몇가지 있다.

코드 포인트 이스케이프 시퀀스 (Code point escape sequence)

  • 유니코드 6.0 부터 이모지가 유니코드에 추가되었다.
  • 이모지는 8비트의 코드 유닛 2개로 표현된다.
  • 코드 포인트 이스케이프 시퀀스는 2개의 코드 유닛을 이용한 문자를 작성하기 위해선 번거로웠던 부분을 해결한다.
console.log("\uD83D\uDE0A"); // 😊
console.log("\u{1F60A}"); // 😊

String.fromCodePoint()

  • 코드 포인트를 숫자로 전달받아 해당하는 유니코드 문자열로 변경해준다.
  • 함수 버전의 코드 포인트 변환기이다.
console.log(String.fromCodePoint(0x1f60a)); // 😊
console.log(String.fromCodePoint(128522)); // 😊

String.prototype.codePointAt()

  • 문자열의 n 번째 인덱스에 있는 문자의 코드 포인트를 얻는다.
"😊".codePointAt(0); // 128522
"😊".codePointAt(0).toString(16); // '1f60a'

자바스크립트 UTF-16 문자열 반복 관련 이슈와 for-of

  • UTF-16 인코딩은 2바이트(16비트)의 코드 유닛 1개 혹은 2개로 구성한다.
    • 그 말은 문자 1개가 2바이트 혹은 4바이트 둘 다 될 수 있다는 것이다.
    • 문자 1개가 4바이트를 차지하는 경우, 문자열의 인덱스를 이용하면 약간의 문제가 생긴다.
const emoji = "😊";
console.log(emoji.length); // 2
console.log(emoji[0]); // '\uD83D'
console.log(emoji[1]); // '\uDE0A'
  • 문자 1개가 4바이트를 차지하는 경우, 문자는 1개인데 길이가 2로 나온다.
  • 2바이트짜리 코드 유닛 2개가 합쳐져 하나의 문자를 만들어내야 하는데, 각각을 따로 보았기 때문이다.
  • 문자를 1개씩 출력하고 싶다고 for 문을 이용하면 아래와 같은 상황을 겪게 된다.
const emoji = "😊";

for (let i = 0; i < emoji.length; i++) {
  console.log(emoji[i]);
}
// �
// �
  • 각각의 코드 유닛은 유니코드에서 매칭되는 글자가 없기 때문에 적절히 표현되지 않는다.
  • 이럴 때는 for-of 를 사용하면 적절히 처리할 수 있다.
const emoji = "😊";

for (const c of emoji) {
  console.log(c);
}
// 😊
  • 위 코드가 올바르게 출력되는 이유는 인덱스 단위로 반복하지 않고, 문자열의 iterator 를 얻어오기 때문이다.
  • 이터러블과 이터레이터에 대한 참고할만한 글

UTF-16 문자열 쪼개기 (split) 이슈와 Array.from()

  • 위에서 설명한 문자열 반복 이슈와 동일하게 문자열을 쪼갤 때도 동일한 문제가 발생한다.
const emoji = "😊";

console.log(emoji.split("")); //  ['\uD83D', '\uDE0A']
  • Array.from() 메서드를 이용해 이를 해결할 수 있다.
const emoji = "😊";

console.log(Array.from(emoji)); //  ['😊']

String.prototype.normalize()

  • 문자열을 정규화된 양식으로 바꾸어준다.
  • 사실상 동일한 문자가 다른 방식으로 표기됐을 때 이를 올바르게 비교할 수 있게 해준다.
const string1 = "café";
const string2 = "cafe\u0301";

console.log(string1 === string2); // false
console.log(string1.normalize() === string2.normalize()); // true
반응형
저작자표시 비영리 (새창열림)

'자바스크립트 > 모던 자바스크립트' 카테고리의 다른 글

모던 자바스크립트, 편의 유틸 배열 메서드  (0) 2023.03.13
모던 자바스크립트, 편의 유틸 문자열 메서드  (0) 2023.03.12
모던 자바스크립트, 템플릿 리터럴과 템플릿 태그 함수  (0) 2023.03.08
모던 자바스크립트, 비동기 버전의 이터레이터, 이터러블, 제너레이터  (0) 2023.02.28
모던 자바스크립트, async await  (0) 2023.02.28
    '자바스크립트/모던 자바스크립트' 카테고리의 다른 글
    • 모던 자바스크립트, 편의 유틸 배열 메서드
    • 모던 자바스크립트, 편의 유틸 문자열 메서드
    • 모던 자바스크립트, 템플릿 리터럴과 템플릿 태그 함수
    • 모던 자바스크립트, 비동기 버전의 이터레이터, 이터러블, 제너레이터
    Jake Seo
    Jake Seo
    ✔ 잘 보셨다면 광고 한번 클릭해주시면 큰 힘이 됩니다. ✔ 댓글로 틀린 부분을 지적해주시면 기분 나빠하지 않고 수정합니다. ✔ 많은 퇴고를 거친 글이 좋은 글이 된다고 생각합니다. ✔ 간결하고 명료하게 사람들을 이해 시키는 것을 목표로 합니다.

    티스토리툴바