반응형
Jake Seo
제이크서 위키 블로그
Jake Seo
전체 방문자
오늘
어제
  • 분류 전체보기 (715)
    • 일상, 일기 (0)
    • 백준 문제풀이 (1)
    • 릿코드 문제풀이 (2)
    • 알고리즘 이론 (10)
      • 기본 이론 (2)
      • 배열과 문자열 (8)
    • 데이터베이스 (15)
      • Planet Scale (1)
      • MSSQL (9)
      • 디비 기본 개념 (1)
      • SQLite 직접 만들어보기 (4)
    • 보안 (7)
    • 설계 (1)
    • 네트워크 (17)
      • HTTP (9)
      • OSI Layers (5)
    • 회고 (31)
      • 연간 회고 (2)
      • 주간 회고 (29)
    • 인프라 (52)
      • 도커 (12)
      • AWS (9)
      • 용어 (21)
      • 웹 성능 (1)
      • 대규모 서비스를 지탱하는 기술 (9)
    • 깃 (7)
    • 빌드 도구 (7)
      • 메이븐 (6)
      • 그레이들 (0)
    • Java (135)
      • 이펙티브 자바 (73)
      • 자바 API (4)
      • 자바 잡지식 (30)
      • 자바 디자인 패턴 (21)
      • 톰캣 (Tomcat) (7)
    • 프레임워크 (64)
      • next.js (14)
      • 스프링 프레임워크 (28)
      • 토비의 스프링 (6)
      • 스프링 부트 (3)
      • JPA (Java Persistence API) (5)
      • Nest.js (8)
    • 프론트엔드 (48)
      • 다크모드 (1)
      • 노드 패키지 관리 매니저 (3)
      • CSS (19)
      • Web API (11)
      • tailwind-css (1)
      • React (5)
      • React 새 공식문서 요약 (1)
      • HTML (Markup Language) (5)
    • 자바스크립트 (108)
      • 모던 자바스크립트 (31)
      • 개념 (31)
      • 정규표현식 (5)
      • 코드 스니펫 (1)
      • 라이브러리 (6)
      • 인터뷰 (24)
      • 웹개발자를 위한 자바스크립트의 모든 것 (6)
      • 팁 (2)
    • Typescript (49)
    • 리눅스와 유닉스 (10)
    • Computer Science (1)
      • Compiler (1)
    • IDE (3)
      • VSCODE (1)
      • IntelliJ (2)
    • 세미나 & 컨퍼런스 (1)
    • 용어 (개발용어) (16)
      • 함수형 프로그래밍 용어들 (1)
    • ORM (2)
      • Prisma (2)
    • NODEJS (2)
    • cypress (1)
    • 리액트 네이티브 (React Native) (31)
    • 러스트 (Rust) (15)
    • 코틀린 (Kotlin) (4)
      • 자바에서 코틀린으로 (4)
    • 정규표현식 (3)
    • 구글 애널리틱스 (GA) (1)
    • SEO (2)
    • UML (2)
    • 맛탐험 (2)
    • 리팩토링 (1)
    • 서평 (2)
    • 소프트웨어 공학 (18)
      • 테스팅 (16)
      • 개발 프로세스 (1)
    • 교육학 (1)
    • 삶의 지혜, 통찰 (1)
    • Chat GPT (2)
    • 쉘스크립트 (1)
    • 컴파일 (2)
    • Dart (12)
    • 코드팩토리의 플러터 프로그래밍 (4)
    • 플러터 (17)
    • 안드로이드 스튜디오 (1)
    • 윈도우즈 (1)
    • 잡다한 백엔드 지식 (1)
    • 디자인 패턴 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 싱글톤
  • 플라이웨이트패턴
  • 자바 검증
  • 자바스크립트 인터뷰
  • 스프링 검증
  • Next.js
  • 참조 해제
  • 러스트
  • 메이븐 페이즈
  • item7
  • next js app
  • pnpm
  • 외래키 제약조건
  • 팩터리 메서드 패턴
  • 자료구조
  • prerendering
  • 프로그래머의 뇌
  • item8
  • 객체복사
  • rust
  • 이펙티브 자바 item9
  • MSSQL
  • Java
  • 작업기억공간
  • Pre-rendering
  • 느린 쿼리
  • bean Validation
  • 디자인패턴
  • 싱글턴
  • item9
  • 자바스크립트
  • serverless computing
  • 토비의 스프링
  • 빈 검증
  • 알고리즘
  • 이펙티브 자바
  • try-with-resources
  • 도커공식문서
  • 자바스크립트 면접
  • 메이븐 라이프사이클
  • NEXT JS
  • 자바 디자인패턴
  • 서버리스 컴퓨팅
  • 추상 팩터리 패턴
  • 슬로우 쿼리
  • 메이븐 골
  • 이펙티브자바
  • Javadoc 자바독 자바주석 주석 Comment
  • 싱글톤 패턴
  • 자바

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Jake Seo

제이크서 위키 블로그

데이터베이스/SQLite 직접 만들어보기

SQLite 직접 만들어보기 Step 3 - 메모리에서만 동작하는 단일 테이블 DB 만들어보기

2023. 6. 9. 19:36

원본 글

https://cstack.github.io/db_tutorial/parts/part3.html

많은 제약이 걸려있는 DB 구성해보기

  • 종래엔 복잡한 DB 가 완성되어 있겠지만 시작할 땐 작게 개발을 시작하는 전략을 사용한다.
    • start small

어떤 제약이 걸리게 되는가?

  • 단 두가지 연산만 지원한다.
    • insert: 행을 삽입한다.
    • select: 모든 행을 출력한다.
  • 오직 메모리에만 데이터를 올린다.
    • 디스크에 영속화 시키지 않는다.
  • 하드코딩된 단 하나의 테이블만 제공한다.

하드코딩된 단일 테이블의 구조

  • id: integer
  • username: varchar(32)
  • email: varchar(255)

앞으로 사용할 insert 명령어의 구성

insert 1 jakeseo foo@bar.com
  • 앞에서부터 순서대로 id, username, email 순이다.

insert 명령어를 사용하기 위한 구조체 추가 및 수정

#define COLUMN_USERNAME_SIZE 32
#define COLUMN_EMAIL_SIZE 255

typedef struct
{
  __uint32_t id;
  char username[COLUMN_USERNAME_SIZE];
  char email[COLUMN_EMAIL_SIZE];
} Row;

typedef struct
{
  StatementType type;
  Row row_to_insert; // only used by insert statement
} Statement;
  • Row 구조체를 추가했다. 하드코딩된 테이블과 같은 데이터 구조를 띈다.
  • Statement 구조체에 Row 타입의 필드를 하나 추가했다.

이후에 해야할 일

  • 받은 데이터를 테이블에 복사해 넣어야 한다.
  • SQLite 는 빠른 조회, 삽입, 삭제를 위해 B-Tree 를 이용한다.

행을 페이지로 그룹화 하는 것은 같지만 페이지를 트리로 정렬하는 대신 배열로 정렬하는 식으로 일단 간단히 만들어보자.

계획

  • 페이지라 불리는 메모리 블록에 행을 저장한다.
  • 각 페이지는 최대한 많은 행을 저장한다.
  • 행은 각 페이지마다 간결한 표현(compact representation)으로 직렬화된다.
  • 페이지는 오직 필요한 만큼만 할당된다.
  • 페이지에 대해 고정 크기의 포인터 배열을 유지한다.

Row 의 간결한 표현 정의하기

#define size_of_attribute(Struct, Attribute) sizeof(((Struct *)0)->Attribute)
// some enum and struct codes ...

const __uint32_t ID_SIZE = size_of_attribute(Row, id);
const __uint32_t USERNAME_SIZE = size_of_attribute(Row, username);
const __uint32_t EMAIL_SIZE = size_of_attribute(Row, email);
const __uint32_t ID_OFFSET = 0;
const __uint32_t USERNAME_OFFSET = ID_OFFSET + ID_SIZE;
const __uint32_t EMAIL_OFFSET = USERNAME_OFFSET + USERNAME_SIZE;
const __uint32_t ROW_SIZE = ID_SIZE + USERNAME_SIZE + EMAIL_SIZE;
  • 직렬화된 Row 는 다음과 같이 표현될 것이다.
    • column size(bytes) offset 순의 데이터이다.
    • id 4 0
    • username 32 4
    • email 255 36
    • total 291

Row 의 직렬화와 역직렬화 구현하기

// Row 의 구조를 띈 source 의 데이터를 임의의 메모리 포인터 destination 으로 복사한다.
void serialize_row(Row *source, void *destination)
{
  memcpy(destination + ID_OFFSET, &(source->id), ID_SIZE);
  memcpy(destination + USERNAME_OFFSET, &(source->username), USERNAME_SIZE);
  memcpy(destination + EMAIL_OFFSET, &(source->email), EMAIL_SIZE);
}

// 임의의 메모리 포인터 source 의 데이터를 Row 의 구조를 띈 destination 으로 복사한다.
void deserialize_row(void *source, Row *destination)
{
  memcpy(&(destination->id), source + ID_OFFSET, ID_SIZE);
  memcpy(&(destination->username), source + USERNAME_OFFSET, USERNAME_SIZE);
  memcpy(&(destination->email), source + EMAIL_OFFSET, EMAIL_SIZE);
}

테이블 구조 만들기

#define TABLE_MAX_PAGES 100

// 테이블 페이지 계산 등에 필요한 상수들
const __uint32_t PAGE_SIZE = 4096;
const __uint32_t ROWS_PER_PAGE = PAGE_SIZE / ROW_SIZE;
const __uint32_t TABLE_MAX_ROWS = ROWS_PER_PAGE * TABLE_MAX_PAGES;

typedef struct
{
  __uint32_t num_rows;
  void *pages[TABLE_MAX_PAGES];
} Table;
  • 테이블은 행 번호를 주면 행이 포함된 페이지를 가리킨다.
  • 행이 총 몇개인지 추적하기도 한다.

페이지 사이즈에 대해 생각해보기

  • 위에 정의에서 PAGE_SIZE 는 4096 이라는 숫자를 갖는다.
  • 4096 은 4KB 를 의미하며, 이는 많은 컴퓨터 아키텍처의 가상 메모리에서 사용되는 페이지와 동일한 크기이다.
  • DB 의 한 페이지 크기를 OS 가상 메모리의 한 페이지 크기와 일치시켰다.
  • OS 는 페이지를 분할하지 않고 전체 단위로 메모리 안팎으로 이동시킬 수 있다.

페이지의 개수에 대해 생각해보기

  • 현재는 할당할 페이지 (TABLE_MAX_PAGES) 를 100 개로 제한하고 있다.
  • 트리 구조로 전환하면 DB 의 최대 크기는 파일의 최대 크기로 제한된다.
    • 한 번에 메모리에 보관할 수 있는 페이지 수는 여전히 제한된다.
  • 행은 페이지 경계를 넘지 않아야 한다.
    • 메모리에 페이지가 나란히 존재하지 않을 가능성이 높기 때문에 이렇게 구성하면 페이지를 읽고 쓰기 더 쉽게 만든다.

row_slot(): 테이블에서 행의 위치 찾기

// 테이블에서 입력받은 번호의 행이 위치한 곳을 찾아준다
void *row_slot(Table *table, __uint32_t row_num)
{
  __uint32_t page_num = row_num / ROWS_PER_PAGE;
  void *page = table->pages[page_num];

  if (page == NULL)
  {
    // 페이지에 접근하려 할 때만 메모리 할당하기
    page = table->pages[page_num] = malloc(PAGE_SIZE);
  }

  __uint32_t row_offset = row_num % ROWS_PER_PAGE;
  __uint32_t byte_offset = row_offset * ROW_SIZE;

  return page + byte_offset;
}
  • 테이블에서 특정한 row 의 포인터를 계산한다.

byte_offset 을 구하는 이유는 row_num 만으로는 페이지 번호를 알 수 없어서이다. 50 번 row 라고 하면, 3 번 페이지의 8 번 row 임을 알 수 있다.

execute_statement() 를 이용해 테이블 읽고/쓰기

typedef enum
{
  EXECUTE_SUCCESS,
  EXECUTE_TABLE_FULL
} ExecuteResult;

void print_row(Row *row)
{
  printf("(%d, %s, %s)\n", row->id, row->username, row->email);
}

ExecuteResult execute_select(Statement *statement, Table *table)
{
  Row row;

  for (__uint32_t i = 0; i < table->num_rows; i++)
  {
    deserialize_row(row_slot(table, i), &row);
    print_row(&row);
  }

  return EXECUTE_SUCCESS;
}

ExecuteResult execute_statement(Statement *statement, Table *table)
{
  switch (statement->type)
  {
  case (STATEMENT_INSERT):
    return execute_insert(statement, table);
  case (STATEMENT_SELECT):
    return execute_select(statement, table);
  }
}

테이블 메모리 할당 및 해제 함수 구현하기

// 새로운 테이블을 만드는 함수 (초기엔 페이지별 메모리할당 되지 않음)
Table *new_table()
{
  Table *table = (Table *)malloc(sizeof(Table));
  table->num_rows = 0;

  for (__uint32_t i = 0; i < TABLE_MAX_PAGES; i++)
  {
    table->pages[i] = NULL;
  }

  return table;
}

// 테이블 메모리 해제하기
void free_table(Table *table)
{
  for (int i = 0; table->pages[i]; i++)
  {
    free(table->pages[i]);
  }

  free(table);
}

main() 함수에 개발 내용 적용하기

int main(int argc, char *argv[])
{
  Table *table = new_table();
  InputBuffer *input_buffer = new_input_buffer();

  while (true)
  {
    print_prompt();
    read_input(input_buffer);

    if (input_buffer->buffer[0] == '.')
    {
      switch (do_meta_command(input_buffer))
      {
      case (META_COMMAND_SUCCESS):
        continue;
      case (META_COMMAND_UNRECOGNIZED_COMMAND):
        printf("Unrecognized command '%s'\n", input_buffer->buffer);
        continue;
      }
    }

    Statement statement;
    switch (prepare_statement(input_buffer, &statement))
    {
    case (PREPARE_SUCCESS):
      break;
    case (PREPARE_SYNTAX_ERROR):
      printf("Syntax error. Could not parse statement.\n");
      continue;
    case (PREPARE_UNRECOGNIZED_STATEMENT):
      printf("Unrecognized keyword at start of '%s'.\n", input_buffer->buffer);
      continue;
    }

    switch (execute_statement(&statement, table))
    {
    case (EXECUTE_SUCCESS):
      printf("Executed.\n");
      break;
    case (EXECUTE_TABLE_FULL):
      printf("Error: Table full.\n");
      break;
    }
  }
}
  • 이제 DB 를 테스트해볼 준비가 되었다.

개발사항 확인해보기

db > insert 1 jake n00nietzsche@gmail.com
Executed.
db > insert 2 jack jack@naver.com
Executed.
db > select
(1, jake, n00nietzsche@gmail.com)
(2, jack, jack@naver.com)
Executed.
db > insert jack 3 a
Syntax error. Could not parse statement.
db >
  • 의도한대로 잘 동작한다.

테스트 코드에 관하여

지금은 사실 테스트 코드를 작성하기 가장 좋은 타이밍이다.

  • 우린 테이블을 가득 채워보지 않았다. (수동 테스트의 부족)
  • 또 이외에도 몇가지 엣지 케이스를 테스트해보아야 한다. (너무 큰 데이터 등등...)

앞으로 테이블을 저장하는 데이터 구조를 크게 변경할 계획이므로 테스트를 잘 작성해놓으면 도움이 될 것이다. 테스트를 통해 우리는 퇴보를 막을 수 있다.

반응형
저작자표시 비영리 (새창열림)

'데이터베이스 > SQLite 직접 만들어보기' 카테고리의 다른 글

SQLite 직접 만들어보기 Step 2 - 세상에서 가장 간단한 SQL 컴파일러와 가상머신 만들어보기  (0) 2023.06.08
SQLite 직접 만들어보기 Step 1 - 매우 간단한 REPL 만들어보기  (0) 2023.06.08
SQLite 직접 만들어보기 Step 0 - SQLite 아키텍처 살펴보기  (0) 2023.05.31
    '데이터베이스/SQLite 직접 만들어보기' 카테고리의 다른 글
    • SQLite 직접 만들어보기 Step 2 - 세상에서 가장 간단한 SQL 컴파일러와 가상머신 만들어보기
    • SQLite 직접 만들어보기 Step 1 - 매우 간단한 REPL 만들어보기
    • SQLite 직접 만들어보기 Step 0 - SQLite 아키텍처 살펴보기
    Jake Seo
    Jake Seo
    ✔ 잘 보셨다면 광고 한번 클릭해주시면 큰 힘이 됩니다. ✔ 댓글로 틀린 부분을 지적해주시면 기분 나빠하지 않고 수정합니다. ✔ 많은 퇴고를 거친 글이 좋은 글이 된다고 생각합니다. ✔ 간결하고 명료하게 사람들을 이해 시키는 것을 목표로 합니다.

    티스토리툴바