개요
- AST 는 Abstract Syntax Tree 혹은 단순히 Syntax Tree 라고 불린다.
- 프로그래밍 언어로 작성된 소스 코드의 추상 구문 구조의 트리이다.
- 추상적이라는 이유는 실제 구문에서 나타나는 모든 세세한 정보를 표현하지 않는다는 것을 의미한다.
- 이를테면 코드에서 이해를 돕기 위한 그룹핑을 위한 괄호까지 명시적으로 분리된 노드로 표현될 필요는 없다.
- 비슷하게, if-condition-then 구문은 3개의 브랜치를 가진 단일 노드로 표현될 수 있다. (위의 예제 그림에서
condition
,assign (if-body)
,assign (else-body)
을 살펴볼 수 있다.) - 이렇게 세세한 정보까진 표현하지 않는다는 것이 Concrete Syntax Trees 와 구분된다.
- AST 가 만들어진 이후에는 Contextual Analysis 와 같은 과정을 통해 추가적인 정보가 AST 에 추가된다.
- AST 는 프로그램 분석, 프로그램 변환 시스템에서 사용된다.
자바스크립트 예제로 알아보기
예제는 astexplorer.net 에서 체험해볼 수 있다.
간단한 예제 코드
function consolelog() {
console.log("hi");
}
위의 함수를 AST 형태로 변형해보자.
AST Tree
차례대로 해석해보면,
- 프로그램이 있다.
- 내부에 body 가 있다.
- body 내부에는 함수 정의가 있다.
- 정의된 함수의 ID 는
consolelog
이다. - 이 함수는
expression
이 아니다. - 이 함수는
generator
가 아니다. - 이 함수는
async
가 아니다. - 파라미터가 없다.
- Body 에는
BlockStatement
가 있다.
- 정의된 함수의 ID 는
- body 내부에는 함수 정의가 있다.
- 내부에 body 가 있다.
위와 같은 정보를 내포하고 있다.
JSON 형태로 살펴보기
{
"type": "Program",
"start": 0,
"end": 36,
"body": [
{
"type": "FunctionDeclaration",
"start": 0,
"end": 36,
"id": {
"type": "Identifier",
"start": 9,
"end": 10,
"name": "a"
},
"expression": false,
"generator": false,
"async": false,
"params": [],
"body": {
"type": "BlockStatement",
"start": 13,
"end": 36,
"body": [
{
"type": "ExpressionStatement",
"start": 17,
"end": 34,
"expression": {
"type": "CallExpression",
"start": 17,
"end": 33,
"callee": {
"type": "MemberExpression",
"start": 17,
"end": 28,
"object": {
"type": "Identifier",
"start": 17,
"end": 24,
"name": "console"
},
"property": {
"type": "Identifier",
"start": 25,
"end": 28,
"name": "log"
},
"computed": false,
"optional": false
},
"arguments": [
{
"type": "Literal",
"start": 29,
"end": 32,
"value": "a",
"raw": "\"a\""
}
],
"optional": false
}
}
]
}
}
],
"sourceType": "module"
}
컴퓨터가 소스코드를 이해하려면?
컴파일러는 우리가 작성한 소스코드에서 위와 같은 계층 구조로 된 정보를 추출해낸다. 이를 추상적인 Tree 로 만든 것을 Abstract Syntax Tree 라고 한다. 사실 AST 를 만드는 과정 이전에도 고수준의 컴퓨터 코드를 컴퓨터가 이해하는 바이트 코드로 변환하는 단계 등이 더 있다.
AST 를 생성하는데는 렉시컬 분석과 신택스 분석이 중요하다.
렉시컬 분석 (Lexical Analysis)
코드의 문자를 읽어 정해진 규칙에 따라 이들을 토큰으로 만들어 합친다. 이 과정에서 공백, 주석등은 삭제한다. 렉시컬 분석기는 소스 코드를 글자 단위로 읽으며 공백, 연산자 기호, 특수 기호 등을 만나면 해당 단어가 끝났다고 인지하고 하나의 토큰으로 만든다.
신택스 분석 (Syntax Analysis)
결과로 나온 토큰 목록을 트리 구조로 만들고 구조적, 언어적으로 문제가 있다면 에러를 내뱉는다. 트리 구조를 만들며 불필요한 토큰 (중복된 괄호 등) 은 생략한다. 결과로 Abstract Syntax Tree
가 만들어진다.
소스코드와의 차이
- AST 는 모든 요소에 대한 properties 와 annotation 과 같은 정보를 통해 수정되거나 향상될 수 있다.
- 이러한 수정은 소스코드에서는 프로그램의 변경을 의미하기 때문에 불가능하다.
fixme: ???
이 부분은 위키피디아에 나와있지만, 무슨 얘기인지 사실 잘 이해가 되지 않는다.
- 소스코드와 다르게 구분자(괄호, 세미콜론)를 가지고 있지 않다.
- 위에서 배웠듯 렉시컬 분석에서 이러한 정보를 삭제했다.
- 프로그램에 대해 유용한 추가적인 정보를 내포한다.
- 소스 코드에서 각 요소가 어디쯤 위치해있는지
position
정보를 알고 있다. - 컴파일러는 이를 통해 코드가 어디쯤에서 잘못되었는지에 대한 유용한 에러메세지를 알려줄 수 있다.
- 소스 코드에서 각 요소가 어디쯤 위치해있는지