Go fmt.Scanner 완벽 가이드: 효율적인 데이터 파싱 기법
Go 언어로 데이터를 파싱할 때, fmt.Scanner
는 강력하고 유연한 도구입니다.
단순한 문자열 분리부터 복잡한 구조의 데이터 처리까지, fmt.Scanner
를 활용하면 효율적이고 가독성 높은 코드를 작성할 수 있습니다.
이 글에서는 fmt.Scanner
의 기본적인 사용법부터 HTTP 요청 파싱, 그리고 커스텀 스캐너 구현까지 다양한 예제와 함께 자세히 살펴보겠습니다.
기본적인 문자열 파싱
Go에서 문자열을 파싱하는 방법은 여러 가지가 있습니다.
간단한 경우에는 strings.Split
함수로 충분하지만, 복잡한 형식이나 다양한 타입의 데이터를 처리해야 할 때는 fmt.Sscanf
가 더 효율적일 수 있습니다.
HTTP/1.0 요청 라인 (Method Request-URI HTTP/major.minor CRLF
) 파싱을 예로 들어 비교해 보겠습니다.
strings.Split 활용:
package main
import (
"fmt"
"strconv"
"strings"
)
func main() {
src := "GET /index.html HTTP/1.0\r\n"
src = strings.TrimRight(src, "\r\n")
parts := strings.Split(src, " ")
if len(parts) != 3 {
panic("invalid request line")
}
method, uri, version := parts[0], parts[1], strings.TrimPrefix(parts[2], "HTTP/")
versionParts := strings.Split(version, ".")
if len(versionParts) != 2 {
panic("invalid HTTP version")
}
major, _ := strconv.Atoi(versionParts[0])
minor, _ := strconv.Atoi(versionParts[1])
fmt.Printf("%s %s %d %d\n", method, uri, major, minor)
}
fmt.Sscanf 활용:
package main
import (
"fmt"
)
func main() {
src := "GET /index.html HTTP/1.0\r\n"
var method, uri string
var major, minor int
_, err := fmt.Sscanf(src, "%s %s HTTP/%d.%d\r\n", &method, &uri, &major, &minor)
if err != nil {
panic(err)
}
fmt.Printf("%s %s %d %d\n", method, uri, major, minor)
}
fmt.Sscanf
를 사용하면 코드가 훨씬 간결하고 가독성이 좋아집니다.
형식 문자열을 사용하여 원하는 데이터를 쉽게 추출할 수 있습니다.
fmt.Scanner 인터페이스와 커스텀 스캐너
더욱 복잡한 파싱 작업을 위해서는 fmt.Scanner
인터페이스를 구현한 커스텀 스캐너를 만들 수 있습니다.
fmt.Scanner
인터페이스는 Scan(state fmt.ScanState, verb rune) error
메서드 하나만 정의하며, ScanState
를 통해 입력 스트림을 제어하고 파싱 로직을 구현합니다.
예를 들어, HTTP 헤더 필드 (key: value)를 파싱하는 커스텀 스캐너를 구현해 보겠습니다.
package main
import (
"bufio"
"fmt"
"strings"
)
type HeaderField struct {
Key string
Values []string
}
func (h *HeaderField) Scan(state fmt.ScanState, verb rune) error {
line, _, err := state.Line()
if err != nil {
return err
}
parts := strings.SplitN(string(line), ":", 2)
if len(parts) != 2 {
return fmt.Errorf("invalid header field: %s", string(line))
}
h.Key = strings.TrimSpace(parts[0])
h.Values = strings.Split(strings.TrimSpace(parts[1]), ",")
for i := range h.Values {
h.Values[i] = strings.TrimSpace(h.Values[i])
}
return nil
}
func main() {
src := "Content-Type: text/plain, application/json\r\n"
reader := strings.NewReader(src)
scanner := bufio.NewScanner(reader)
var h HeaderField
scanner.Split(bufio.ScanLines)
for scanner.Scan() {
if err := scanner.Err(); err != nil {
panic(err)
}
fmt.Sscan(scanner.Text(), &h)
fmt.Printf("%+v\n", h) // Output 예시: {Key:Content-Type Values:[text/plain application/json]}
}
}
ScanState
의 Token
, SkipSpace
, ReadRune
, UnreadRune
, Width
등의 메서드를 활용하여 원하는 형태로 데이터를 파싱할 수 있습니다.
bufio.Reader 활용 및 ScanState 주의 사항
대용량 데이터를 파싱할 때는 bufio.Reader
를 사용하여 성능을 향상시킬 수 있습니다.
bufio.Reader
는 버퍼를 사용하여 읽기 작업을 최적화합니다.
ScanState.Read
메서드는 사용하지 않는 것이 좋습니다.
fmt
패키지 내부 구현에서 에러를 반환하도록 설계되어 있기 때문입니다. 대신 Token
메서드를 사용하여 데이터를 읽어야 하며, Token
은 한 번에 하나의 토큰만 읽어야 합니다.
또한, UnreadRune
는 ReadRune
직후에만 사용해야 합니다.
결론
fmt.Scanner
는 Go에서 효율적이고 유연한 데이터 파싱을 위한 강력한 도구입니다.
간단한 문자열 파싱부터 복잡한 커스텀 스캐너 구현까지 다양한 상황에서 활용할 수 있습니다.
이 글에서 소개한 예제와 주의 사항을 참고하여 여러분의 Go 프로젝트에서 fmt.Scanner
를 적극적으로 활용해 보세요.
'Go' 카테고리의 다른 글
Go Concurrency vs. RxJS: 어떤 기술이 더 나을까? 커뮤니티 유저들의 다양한 의견을 알아봅시다! (1) | 2024.10.05 |
---|---|
Go로 만드는 데몬 프로세스 처리 레시피 (1) | 2024.09.22 |
Go 이미지 생성: 완벽한 테스트 전략으로 버그 없는 코드 작성하기 (0) | 2024.09.20 |
Go로 작성된 로컬 파일 처리 CLI 도구 테스트 방법 3가지 (0) | 2024.09.20 |
Go 언어로 HTTP 서버 기본 구조 깔끔하게 잡기: `errgroup` 활용! (0) | 2024.09.20 |