ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Go fmt.Scanner 완벽 가이드: 효율적인 데이터 파싱 기법
    Go 2024. 9. 20. 17:44

    Go fmt.Scanner 완벽 가이드: 효율적인 데이터 파싱 기법

    Go 언어로 데이터를 파싱할 때, fmt.Scanner는 강력하고 유연한 도구입니다.

     

    단순한 문자열 분리부터 복잡한 구조의 데이터 처리까지, fmt.Scanner를 활용하면 효율적이고 가독성 높은 코드를 작성할 수 있습니다.

     

    이 글에서는 fmt.Scanner의 기본적인 사용법부터 HTTP 요청 파싱, 그리고 커스텀 스캐너 구현까지 다양한 예제와 함께 자세히 살펴보겠습니다.

     

    기본적인 문자열 파싱

    Go에서 문자열을 파싱하는 방법은 여러 가지가 있습니다.

     

    간단한 경우에는 strings.Split 함수로 충분하지만, 복잡한 형식이나 다양한 타입의 데이터를 처리해야 할 때는 fmt.Sscanf가 더 효율적일 수 있습니다.

     

    HTTP/1.0 요청 라인 (Method Request-URI HTTP/major.minor CRLF) 파싱을 예로 들어 비교해 보겠습니다.

     

    strings.Split 활용:

    package main
    
    import (
            "fmt"
            "strconv"
            "strings"
    )
    
    func main() {
            src := "GET /index.html HTTP/1.0\r\n"
            src = strings.TrimRight(src, "\r\n")
            parts := strings.Split(src, " ")
            if len(parts) != 3 {
                    panic("invalid request line")
            }
            method, uri, version := parts[0], parts[1], strings.TrimPrefix(parts[2], "HTTP/")
            versionParts := strings.Split(version, ".")
            if len(versionParts) != 2 {
                    panic("invalid HTTP version")
            }
            major, _ := strconv.Atoi(versionParts[0])
            minor, _ := strconv.Atoi(versionParts[1])
            fmt.Printf("%s %s %d %d\n", method, uri, major, minor)
    }
    

     

    fmt.Sscanf 활용:

    package main
    
    import (
            "fmt"
    )
    
    func main() {
            src := "GET /index.html HTTP/1.0\r\n"
            var method, uri string
            var major, minor int
            _, err := fmt.Sscanf(src, "%s %s HTTP/%d.%d\r\n", &method, &uri, &major, &minor)
            if err != nil {
                    panic(err)
            }
            fmt.Printf("%s %s %d %d\n", method, uri, major, minor)
    }
    

     

    fmt.Sscanf를 사용하면 코드가 훨씬 간결하고 가독성이 좋아집니다.

     

    형식 문자열을 사용하여 원하는 데이터를 쉽게 추출할 수 있습니다.

     

    fmt.Scanner 인터페이스와 커스텀 스캐너

    더욱 복잡한 파싱 작업을 위해서는 fmt.Scanner 인터페이스를 구현한 커스텀 스캐너를 만들 수 있습니다.

    fmt.Scanner 인터페이스는 Scan(state fmt.ScanState, verb rune) error 메서드 하나만 정의하며, ScanState를 통해 입력 스트림을 제어하고 파싱 로직을 구현합니다.

     

    예를 들어, HTTP 헤더 필드 (key: value)를 파싱하는 커스텀 스캐너를 구현해 보겠습니다.

    package main
    
    import (
            "bufio"
            "fmt"
            "strings"
    )
    
    type HeaderField struct {
            Key    string
            Values []string
    }
    
    func (h *HeaderField) Scan(state fmt.ScanState, verb rune) error {
            line, _, err := state.Line()
            if err != nil {
                    return err
            }
            parts := strings.SplitN(string(line), ":", 2)
            if len(parts) != 2 {
                    return fmt.Errorf("invalid header field: %s", string(line))
            }
            h.Key = strings.TrimSpace(parts[0])
            h.Values = strings.Split(strings.TrimSpace(parts[1]), ",")
            for i := range h.Values {
                    h.Values[i] = strings.TrimSpace(h.Values[i])
            }
            return nil
    }
    
    func main() {
            src := "Content-Type: text/plain, application/json\r\n"
            reader := strings.NewReader(src)
            scanner := bufio.NewScanner(reader)
            var h HeaderField
            scanner.Split(bufio.ScanLines)
            for scanner.Scan() {
                    if err := scanner.Err(); err != nil {
                            panic(err)
                    }
                    fmt.Sscan(scanner.Text(), &h)
    
                    fmt.Printf("%+v\n", h) // Output 예시: {Key:Content-Type Values:[text/plain application/json]}
            }
    
    }
    

     

    ScanStateToken, SkipSpace, ReadRune, UnreadRune, Width 등의 메서드를 활용하여 원하는 형태로 데이터를 파싱할 수 있습니다.

     

    bufio.Reader 활용 및 ScanState 주의 사항

    대용량 데이터를 파싱할 때는 bufio.Reader를 사용하여 성능을 향상시킬 수 있습니다.

    bufio.Reader는 버퍼를 사용하여 읽기 작업을 최적화합니다.

     

    ScanState.Read 메서드는 사용하지 않는 것이 좋습니다.

    fmt 패키지 내부 구현에서 에러를 반환하도록 설계되어 있기 때문입니다. 대신 Token 메서드를 사용하여 데이터를 읽어야 하며, Token은 한 번에 하나의 토큰만 읽어야 합니다.

     

    또한, UnreadRuneReadRune 직후에만 사용해야 합니다.

     

    결론

    fmt.Scanner는 Go에서 효율적이고 유연한 데이터 파싱을 위한 강력한 도구입니다.

     

    간단한 문자열 파싱부터 복잡한 커스텀 스캐너 구현까지 다양한 상황에서 활용할 수 있습니다.

     

    이 글에서 소개한 예제와 주의 사항을 참고하여 여러분의 Go 프로젝트에서 fmt.Scanner를 적극적으로 활용해 보세요.

     


     

Designed by Tistory.