반응형
Jake Seo
제이크서 위키 블로그
Jake Seo
전체 방문자
오늘
어제
  • 분류 전체보기 (715)
    • 일상, 일기 (0)
    • 백준 문제풀이 (1)
    • 릿코드 문제풀이 (2)
    • 알고리즘 이론 (10)
      • 기본 이론 (2)
      • 배열과 문자열 (8)
    • 데이터베이스 (15)
      • Planet Scale (1)
      • MSSQL (9)
      • 디비 기본 개념 (1)
      • SQLite 직접 만들어보기 (4)
    • 보안 (7)
    • 설계 (1)
    • 네트워크 (17)
      • HTTP (9)
      • OSI Layers (5)
    • 회고 (31)
      • 연간 회고 (2)
      • 주간 회고 (29)
    • 인프라 (52)
      • 도커 (12)
      • AWS (9)
      • 용어 (21)
      • 웹 성능 (1)
      • 대규모 서비스를 지탱하는 기술 (9)
    • 깃 (7)
    • 빌드 도구 (7)
      • 메이븐 (6)
      • 그레이들 (0)
    • Java (135)
      • 이펙티브 자바 (73)
      • 자바 API (4)
      • 자바 잡지식 (30)
      • 자바 디자인 패턴 (21)
      • 톰캣 (Tomcat) (7)
    • 프레임워크 (64)
      • next.js (14)
      • 스프링 프레임워크 (28)
      • 토비의 스프링 (6)
      • 스프링 부트 (3)
      • JPA (Java Persistence API) (5)
      • Nest.js (8)
    • 프론트엔드 (48)
      • 다크모드 (1)
      • 노드 패키지 관리 매니저 (3)
      • CSS (19)
      • Web API (11)
      • tailwind-css (1)
      • React (5)
      • React 새 공식문서 요약 (1)
      • HTML (Markup Language) (5)
    • 자바스크립트 (108)
      • 모던 자바스크립트 (31)
      • 개념 (31)
      • 정규표현식 (5)
      • 코드 스니펫 (1)
      • 라이브러리 (6)
      • 인터뷰 (24)
      • 웹개발자를 위한 자바스크립트의 모든 것 (6)
      • 팁 (2)
    • Typescript (49)
    • 리눅스와 유닉스 (10)
    • Computer Science (1)
      • Compiler (1)
    • IDE (3)
      • VSCODE (1)
      • IntelliJ (2)
    • 세미나 & 컨퍼런스 (1)
    • 용어 (개발용어) (16)
      • 함수형 프로그래밍 용어들 (1)
    • ORM (2)
      • Prisma (2)
    • NODEJS (2)
    • cypress (1)
    • 리액트 네이티브 (React Native) (31)
    • 러스트 (Rust) (15)
    • 코틀린 (Kotlin) (4)
      • 자바에서 코틀린으로 (4)
    • 정규표현식 (3)
    • 구글 애널리틱스 (GA) (1)
    • SEO (2)
    • UML (2)
    • 맛탐험 (2)
    • 리팩토링 (1)
    • 서평 (2)
    • 소프트웨어 공학 (18)
      • 테스팅 (16)
      • 개발 프로세스 (1)
    • 교육학 (1)
    • 삶의 지혜, 통찰 (1)
    • Chat GPT (2)
    • 쉘스크립트 (1)
    • 컴파일 (2)
    • Dart (12)
    • 코드팩토리의 플러터 프로그래밍 (4)
    • 플러터 (17)
    • 안드로이드 스튜디오 (1)
    • 윈도우즈 (1)
    • 잡다한 백엔드 지식 (1)
    • 디자인 패턴 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • bean Validation
  • 메이븐 페이즈
  • 도커공식문서
  • 객체복사
  • 참조 해제
  • prerendering
  • Javadoc 자바독 자바주석 주석 Comment
  • 추상 팩터리 패턴
  • MSSQL
  • 토비의 스프링
  • 느린 쿼리
  • rust
  • 자바 디자인패턴
  • item9
  • item7
  • next js app
  • 자바스크립트
  • NEXT JS
  • 스프링 검증
  • 디자인패턴
  • 메이븐 라이프사이클
  • 플라이웨이트패턴
  • Next.js
  • 프로그래머의 뇌
  • 싱글톤 패턴
  • 싱글톤
  • 빈 검증
  • 서버리스 컴퓨팅
  • item8
  • 자바스크립트 면접
  • 러스트
  • 슬로우 쿼리
  • 작업기억공간
  • 이펙티브 자바 item9
  • 알고리즘
  • 자료구조
  • 외래키 제약조건
  • serverless computing
  • 메이븐 골
  • Pre-rendering
  • pnpm
  • try-with-resources
  • Java
  • 자바
  • 자바스크립트 인터뷰
  • 이펙티브 자바
  • 이펙티브자바
  • 싱글턴
  • 팩터리 메서드 패턴
  • 자바 검증

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Jake Seo

제이크서 위키 블로그

용어 (개발용어)

UTF (Unicode Transformation Format) 인코딩이란?

2023. 3. 10. 01:28

UTF 란?

  • 약자를 해석하자면, Unicode Transformation Format 즉, 유니코드 변환 포맷을 말한다.
  • 쉽게 설명하자면, 유니코드를 변환할 때 그 기준이 되는 표를 말하는 것이다.
  • ex) U+0041 는 대문자 A 로 치환되고, U+0042 는 대문자 B 로 치환될 수 있도록 표를 제공하는 것이다.

유니코드가 생겨난 이유

  • 요약하자면, 컴퓨터는 모든 것을 비트로 받아들이기 때문에 생겼다.
  • 숫자에 의미부여를 해서 문자로 만들 수 밖에 없었다.
  • 초기엔 알파벳 대소문자와 숫자정도만 만들어놨다.
    • 이것이 바로 ascii (아스키 코드)
  • 영문 말고 다른 문자를 쓰는 국가들이 등장했다.
    • euc-xx 라는 인코딩이 등장했다.
  • euc-xx 는 해당 국가 언어에서는 잘 동작하나, 제3외국어가 끼면 이상해졌다.
  • 애플, 제록스, IBM 이 합심하여 USC-2 를 만들었다.
    • 2바이트로 이루어졌고, 아스키, 한국어, 일본어, 중국어 등이 포함됐다.
    • 이를 cjk (china, japan, korea) 라고 부르기도 했다.
  • 타 언어를 쓰는 사람들도 컴퓨터를 많이 사용하기 시작했다.
  • 모든 문자를 다 표현하려면 크기를 좀 늘려야했다.
  • 2 바이트를 더 늘려 Unicode (유니코드) 란 것을 출범했다.

UTF 별 특징

  • UTF 는 시행착오를 거쳐 많은 버전이 탄생했다.
  • UTF-8, UTF-16, UTF-32 등이다.

UTF-8

  • 가변 길이 인코딩이다.
    • 1바이트부터 4바이트까지 사용한다.
  • ASCII 와 하위 호환이 된다.
    • ASCII 에 해당하는 문자를 표현하는데는 1바이트만 사용하면 된다.
  • 웹이나 유닉스를 기반으로 한 시스템에서 많이 쓰인다.
    • 공간 효율이 좋아 통신하기 좋기 때문이다.
    • ASCII 를 베이스로 한 소프트웨어와 완벽하게 호환되는 것도 그 이유다.

UTF-16

  • 고정 길이 인코딩이다.
    • 2바이트 혹은 4바이트를 사용한다.
  • 원래는 윈도우즈를 위해 디자인되었다.
    • 윈도우즈는 16비트 문자를 기본으로 사용한다.
  • 많은 프로그래밍 언어와 애플리케이션이 이 인코딩을 사용한다.

UTF-32

  • 고정 길이 인코딩이다.
    • 4바이트를 사용한다.
  • UTF-8 혹은 UTF-16 보다는 상대적으로 많은 공간을 필요로 한다.
  • 공간을 많이 사용하더라도 정확도를 중요시 하는 과학, 기술 분야에서 환영받는 인코딩 방식이다.

UTF-8mb4

  • UTF-8 과 동일한 가변 길이 인코딩이다.
  • UTF-8 의 한계 때문에 생기게 되었다.
    • (몇몇 수정된) UTF-8 은 BMP (Basic Multilingual Plane) 만 표현이 가능했기 때문이다.
    • 고어나 음표나 특수 목적 문자를 사용하지 못했다.
  • 유니코드가 확장되며 추가 문자인 SMP (Supplementary Multilingual Plane) 라는 것이 추가됐다.
    • SMP 를 표현하기 위해서는 4바이트가 필요했다.
  • SMP 를 다루기 위해 UTF-8mb4 인코딩이 생겨났다.
    • 사실 이미 UTF-8 이 4바이트까지 사용하도록 1996년에 허가가 되었어서 이름만 변경된 것이다.
  • UTF-8mb4 는 최신 MySQL에서 기본으로 사용된다.
  • mb4 글자의 의미는 four-byte maximum 의 의미이다.
    • 최대 4바이트를 사용하며 모든 유니코드 문자를 표현하는 것이 가능해졌다.

MySQL 과 UTF-8mb4

  • 유니코드 기준으로 놓고 보면, UTF-8mb4 는 UTF-8 과 사실상 이름만 다르다.
  • 그러나 굳이 구분되는 이유가 MySQL 에서는 옛버전 UTF-8 (UTF-8mb3) 과 신버전 UTF-8 이 있는데, 신버전의 이름을 UTF-8mb4 라고 지으며 둘을 구분했다.
  • MySQL 의 옛버전 UTF-8 인 UTF-8mb3 는 오직 BMP 만 표현 가능했던 인코딩 방식이다.
  • 이를 이용해 메모리상의 이득을 보려 했으나, 결과는 이득은 매우 작고 오히려 많은 이슈를 불러일으켰다.
  • 그래서 최신 버전의 MySQL 에서는 UTF-8mb4 를 기본 인코딩으로 사용한다.

추가로 읽어볼만한 문서

자바스크립트가 문자열을 표현하는 방식 (feat.UTF-8)

반응형
저작자표시 비영리

'용어 (개발용어)' 카테고리의 다른 글

IEEE 754 부동소수점이란?  (0) 2023.03.17
클램프 (Clamp) 란? feat. 컴퓨터 과학, 그래픽스 용어  (0) 2023.03.15
이스케이프 시퀀스 (Escape Sequence) 란?  (0) 2023.03.10
시멘틱 버저닝 (Semantic Versioning) 이란? (feat. package.json 표현 방식)  (1) 2022.11.06
루프백 아이피 (loopback ip) 란?  (0) 2022.11.05
    '용어 (개발용어)' 카테고리의 다른 글
    • IEEE 754 부동소수점이란?
    • 클램프 (Clamp) 란? feat. 컴퓨터 과학, 그래픽스 용어
    • 이스케이프 시퀀스 (Escape Sequence) 란?
    • 시멘틱 버저닝 (Semantic Versioning) 이란? (feat. package.json 표현 방식)
    Jake Seo
    Jake Seo
    ✔ 잘 보셨다면 광고 한번 클릭해주시면 큰 힘이 됩니다. ✔ 댓글로 틀린 부분을 지적해주시면 기분 나빠하지 않고 수정합니다. ✔ 많은 퇴고를 거친 글이 좋은 글이 된다고 생각합니다. ✔ 간결하고 명료하게 사람들을 이해 시키는 것을 목표로 합니다.

    티스토리툴바