arf/lexer/lexer.go

package lexer

import "io"
import "fmt"
import "github.com/sashakoshka/arf/file"
import "github.com/sashakoshka/arf/types"

// LexingOperation holds information about an ongoing lexing operataion.
type LexingOperation struct {
	file   *file.File
	char   rune
	tokens []Token
}

// Tokenize converts a file into a slice of tokens (lexemes).
func Tokenize (file *file.File) (tokens []Token, err error) {
	lexer := LexingOperation { file: file }
	err    = lexer.tokenize()
	tokens = lexer.tokens

	// if the lexing operation returned io.EOF, nothing went wrong so we
	// return nil for err.
	if err == io.EOF {
		err = nil
	}
	return
}

// tokenize converts a file into a slice of tokens (lexemes). It will always
// return a non-nil error, but if nothing went wrong it will return io.EOF.
func (lexer *LexingOperation) tokenize () (err error) {
	err = lexer.nextRune()
	if err != nil { return }

	for {
		fmt.Println(string(lexer.char))
		
		lowercase := lexer.char >= 'a' && lexer.char <= 'z'
		uppercase := lexer.char >= 'A' && lexer.char <= 'Z'
		number    := lexer.char >= '0' && lexer.char <= '9'

		if number {
			// TODO: tokenize number begin\
			err = lexer.tokenizeNumberBeginning(false)
			if err != nil { return }
		} else if lowercase || uppercase {
			err = lexer.tokenizeAlphaBeginning()
			if err != nil { return }
		} else {
			err = lexer.tokenizeSymbolBeginning()
			if err != nil { return }
		}

		err = lexer.skipSpaces()
		if err != nil { return }
	}

	return
}

func (lexer *LexingOperation) tokenizeAlphaBeginning () (err error) {
	got := ""

	for {
		lowercase := lexer.char >= 'a' && lexer.char <= 'z'
		uppercase := lexer.char >= 'A' && lexer.char <= 'Z'
		number    := lexer.char >= '0' && lexer.char <= '9'
		if !lowercase && !uppercase && !number { break }

		got += string(lexer.char)

		lexer.nextRune()
	}

	token := Token { kind: TokenKindName, value: got }

	if len(got) == 2 {
		firstValid  := got[0] == 'n' || got[0] == 'r' || got[0] == 'w'
		secondValid := got[1] == 'n' || got[1] == 'r' || got[1] == 'w'

		if firstValid && secondValid {
			token.kind  = TokenKindPermission
			token.value = types.PermissionFrom(got)
		}
	}

	lexer.addToken(token)

	return
}

func (lexer *LexingOperation) tokenizeSymbolBeginning () (err error) {
	switch lexer.char {
	case '#':
		// comment
		for lexer.char != '\n' {
			err = lexer.nextRune()
			if err != nil { return }
		}
	case '\t':
		// indent level
		previousToken := lexer.tokens[len(lexer.tokens) - 1]

		if !previousToken.Is(TokenKindNewline) ||
			!previousToken.Is(TokenKindNewline) {

			file.NewError (
				lexer.file.Location(), 1,
				"tab not used as indent",
				file.ErrorKindWarn)
			break
		}
		
		for lexer.char == '\t' {
			lexer.addToken (Token {
				kind: TokenKindIndent,
			})
			err = lexer.nextRune()
			if err != nil { return }
		}
	case '\n':
		// line break
		// TODO: if last line was blank, (ony whitespace) discard.
		lexer.addToken (Token {
			kind: TokenKindNewline,
		})
		err = lexer.nextRune()
	case '"':
		// TODO: tokenize string literal
		err = lexer.nextRune()
	case '\'':
		// TODO: tokenize rune literal
		err = lexer.nextRune()
	case ':':
		lexer.addToken (Token {
			kind: TokenKindColon,
		})
		err = lexer.nextRune()
	case '.':
		lexer.addToken (Token {
			kind: TokenKindDot,
		})
		err = lexer.nextRune()
	case '[':
		lexer.addToken (Token {
			kind: TokenKindLBracket,
		})
		err = lexer.nextRune()
	case ']':
		lexer.addToken (Token {
			kind: TokenKindRBracket,
		})
		err = lexer.nextRune()
	case '{':
		lexer.addToken (Token {
			kind: TokenKindLBrace,
		})
		err = lexer.nextRune()
	case '}':
		lexer.addToken (Token {
			kind: TokenKindRBrace,
		})
		err = lexer.nextRune()
	case '+':
		// TODO: tokenize plus begin
		err = lexer.nextRune()
	case '-':
		err = lexer.tokenizeDashBeginning()
	case '*':
		lexer.addToken (Token {
			kind: TokenKindAsterisk,
		})
		err = lexer.nextRune()
	case '/':
		lexer.addToken (Token {
			kind: TokenKindSlash,
		})
		err = lexer.nextRune()
	case '@':
		lexer.addToken (Token {
			kind: TokenKindAt,
		})
		err = lexer.nextRune()
	case '!':
		lexer.addToken (Token {
			kind: TokenKindExclamation,
		})
		err = lexer.nextRune()
	case '%':
		lexer.addToken (Token {
			kind: TokenKindPercent,
		})
		err = lexer.nextRune()
	case '~':
		lexer.addToken (Token {
			kind: TokenKindTilde,
		})
		err = lexer.nextRune()
	case '<':
		// TODO: tokenize less than begin
		err = lexer.nextRune()
	case '>':
		// TODO: tokenize greater than begin
		err = lexer.nextRune()
	case '|':
		// TODO: tokenize bar begin
		err = lexer.nextRune()
	case '&':
		// TODO: tokenize and begin
		err = lexer.nextRune()
	default:
		err = file.NewError (
			lexer.file.Location(), 1,
			"unexpected symbol character " +
			string(lexer.char),
			file.ErrorKindError)
		return
	}

	return
}

func (lexer *LexingOperation) tokenizeDashBeginning () (err error) {
	err = lexer.nextRune()
	if err != nil { return }

	if lexer.char == '-' {
		token := Token { kind: TokenKindDecrement }

		err = lexer.nextRune()
		if err != nil { return }

		if lexer.char == '-' {
			token.kind = TokenKindSeparator
			lexer.nextRune()
		}
		lexer.addToken(token)
	} else if lexer.char == '>' {
		token := Token { kind: TokenKindReturnDirection }

		err = lexer.nextRune() 
		if err != nil { return }

		lexer.addToken(token)
	} else if lexer.char >= '0' && lexer.char <= '9' {
		lexer.tokenizeNumberBeginning(true)
	} else {
		token := Token { kind: TokenKindMinus }
		lexer.addToken(token)
	}
	
	return
}

// addToken adds a new token to the lexer's token slice.
func (lexer *LexingOperation) addToken (token Token) {
	lexer.tokens = append(lexer.tokens, token)
}

// skipSpaces skips all space characters (not tabs or newlines)
func (lexer *LexingOperation) skipSpaces () (err error) {
	for lexer.char == ' ' {
		err = lexer.nextRune()
		if err != nil { return }
	}

	return
}

// nextRune advances the lexer to the next rune in the file.
func (lexer *LexingOperation) nextRune () (err error) {
	lexer.char, _, err = lexer.file.ReadRune()
	if err != nil && err != io.EOF {
		return file.NewError (
			lexer.file.Location(), 1,
			err.Error(), file.ErrorKindError)
	}
	return
}
Added lexer stub 2022-08-07 13:18:59 -06:00			`package lexer`

Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`import "io"`
Reduced code du0plicaion with number lexing functions 2022-08-10 23:57:04 -06:00			`import "fmt"`
Created stub high-level module compilation function 2022-08-08 01:08:50 -06:00			`import "github.com/sashakoshka/arf/file"`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`import "github.com/sashakoshka/arf/types"`
Added lexer stub 2022-08-07 13:18:59 -06:00
			`// LexingOperation holds information about an ongoing lexing operataion.`
			`type LexingOperation struct {`
LexingOperation now stores the list of tokens 2022-08-09 20:12:14 -06:00			`file *file.File`
			`char rune`
			`tokens []Token`
Added lexer stub 2022-08-07 13:18:59 -06:00			`}`

Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`// Tokenize converts a file into a slice of tokens (lexemes).`
			`func Tokenize (file *file.File) (tokens []Token, err error) {`
			`lexer := LexingOperation { file: file }`
Lexer unit test now prints out resulting error 2022-08-10 11:03:48 -06:00			`err = lexer.tokenize()`
LexingOperation now stores the list of tokens 2022-08-09 20:12:14 -06:00			`tokens = lexer.tokens`
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00
			`// if the lexing operation returned io.EOF, nothing went wrong so we`
			`// return nil for err.`
			`if err == io.EOF {`
			`err = nil`
			`}`
			`return`
			`}`

			`// tokenize converts a file into a slice of tokens (lexemes). It will always`
			`// return a non-nil error, but if nothing went wrong it will return io.EOF.`
LexingOperation now stores the list of tokens 2022-08-09 20:12:14 -06:00			`func (lexer *LexingOperation) tokenize () (err error) {`
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`err = lexer.nextRune()`
			`if err != nil { return }`

			`for {`
Reduced code du0plicaion with number lexing functions 2022-08-10 23:57:04 -06:00			`fmt.Println(string(lexer.char))`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`lowercase := lexer.char >= 'a' && lexer.char <= 'z'`
			`uppercase := lexer.char >= 'A' && lexer.char <= 'Z'`
			`number := lexer.char >= '0' && lexer.char <= '9'`

			`if number {`
Reduced code du0plicaion with number lexing functions 2022-08-10 23:57:04 -06:00			`// TODO: tokenize number begin\`
Added lexing hexidecimal numbers 2022-08-10 23:14:41 -06:00			`err = lexer.tokenizeNumberBeginning(false)`
			`if err != nil { return }`
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`} else if lowercase \|\| uppercase {`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.tokenizeAlphaBeginning()`
			`if err != nil { return }`
I am an idiot 2022-08-11 00:00:57 -06:00			`} else {`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`err = lexer.tokenizeSymbolBeginning()`
Lexer no longer hangs when encountering letters 2022-08-10 11:59:09 -06:00			`if err != nil { return }`
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`}`

Lexer no longer hangs when encountering letters 2022-08-10 11:59:09 -06:00			`err = lexer.skipSpaces()`
			`if err != nil { return }`
Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`}`

			`return`
Added lexer stub 2022-08-07 13:18:59 -06:00			`}`

Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`func (lexer *LexingOperation) tokenizeAlphaBeginning () (err error) {`
			`got := ""`

			`for {`
			`lowercase := lexer.char >= 'a' && lexer.char <= 'z'`
			`uppercase := lexer.char >= 'A' && lexer.char <= 'Z'`
			`number := lexer.char >= '0' && lexer.char <= '9'`
			`if !lowercase && !uppercase && !number { break }`

			`got += string(lexer.char)`

			`lexer.nextRune()`
			`}`

			`token := Token { kind: TokenKindName, value: got }`

			`if len(got) == 2 {`
			`firstValid := got[0] == 'n' \|\| got[0] == 'r' \|\| got[0] == 'w'`
			`secondValid := got[1] == 'n' \|\| got[1] == 'r' \|\| got[1] == 'w'`

			`if firstValid && secondValid {`
			`token.kind = TokenKindPermission`
			`token.value = types.PermissionFrom(got)`
			`}`
			`}`

			`lexer.addToken(token)`

			`return`
			`}`

Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`func (lexer *LexingOperation) tokenizeSymbolBeginning () (err error) {`
			`switch lexer.char {`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`case '#':`
			`// comment`
			`for lexer.char != '\n' {`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
			`if err != nil { return }`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`}`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '\t':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`// indent level`
Print warning when a tab is discovered where it shouldn't be 2022-08-09 23:22:53 -06:00			`previousToken := lexer.tokens[len(lexer.tokens) - 1]`

			`if !previousToken.Is(TokenKindNewline) \|\|`
			`!previousToken.Is(TokenKindNewline) {`

			`file.NewError (`
			`lexer.file.Location(), 1,`
			`"tab not used as indent",`
			`file.ErrorKindWarn)`
			`break`
			`}`

Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`for lexer.char == '\t' {`
			`lexer.addToken (Token {`
			`kind: TokenKindIndent,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
			`if err != nil { return }`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`}`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`case '\n':`
			`// line break`
Added unit test for lexer 2022-08-10 09:28:29 -06:00			`// TODO: if last line was blank, (ony whitespace) discard.`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindNewline,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '"':`
			`// TODO: tokenize string literal`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '\'':`
			`// TODO: tokenize rune literal`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case ':':`
			`lexer.addToken (Token {`
			`kind: TokenKindColon,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '.':`
			`lexer.addToken (Token {`
			`kind: TokenKindDot,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '[':`
			`lexer.addToken (Token {`
			`kind: TokenKindLBracket,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case ']':`
			`lexer.addToken (Token {`
			`kind: TokenKindRBracket,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '{':`
			`lexer.addToken (Token {`
			`kind: TokenKindLBrace,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`case '}':`
			`lexer.addToken (Token {`
			`kind: TokenKindRBrace,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '+':`
Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00			`// TODO: tokenize plus begin`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '-':`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.tokenizeDashBeginning()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '*':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindAsterisk,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '/':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindSlash,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '@':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindAt,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '!':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindExclamation,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '%':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindPercent,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '~':`
All basic symbol tokens are now parsed 2022-08-09 23:03:59 -06:00			`lexer.addToken (Token {`
			`kind: TokenKindTilde,`
			`})`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '<':`
			`// TODO: tokenize less than begin`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '>':`
			`// TODO: tokenize greater than begin`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '\|':`
			`// TODO: tokenize bar begin`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added a ton more token kinds 2022-08-09 22:48:18 -06:00			`case '&':`
			`// TODO: tokenize and begin`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`err = lexer.nextRune()`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`default:`
			`err = file.NewError (`
			`lexer.file.Location(), 1,`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00			`"unexpected symbol character " +`
Added lexing various symbol tokens 2022-08-09 20:18:12 -06:00			`string(lexer.char),`
			`file.ErrorKindError)`
			`return`
			`}`

			`return`
			`}`

Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00			`func (lexer *LexingOperation) tokenizeDashBeginning () (err error) {`
Negative numbers are now supported 2022-08-11 00:10:34 -06:00			`err = lexer.nextRune()`
			`if err != nil { return }`

Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00			`if lexer.char == '-' {`
Negative numbers are now supported 2022-08-11 00:10:34 -06:00			`token := Token { kind: TokenKindDecrement }`

			`err = lexer.nextRune()`
			`if err != nil { return }`

			`if lexer.char == '-' {`
			`token.kind = TokenKindSeparator`
			`lexer.nextRune()`
			`}`
			`lexer.addToken(token)`
Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00			`} else if lexer.char == '>' {`
Negative numbers are now supported 2022-08-11 00:10:34 -06:00			`token := Token { kind: TokenKindReturnDirection }`
Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00
Negative numbers are now supported 2022-08-11 00:10:34 -06:00			`err = lexer.nextRune()`
			`if err != nil { return }`
Name and permission tokens are now supported 2022-08-10 12:55:26 -06:00
Negative numbers are now supported 2022-08-11 00:10:34 -06:00			`lexer.addToken(token)`
			`} else if lexer.char >= '0' && lexer.char <= '9' {`
			`lexer.tokenizeNumberBeginning(true)`
			`} else {`
			`token := Token { kind: TokenKindMinus }`
			`lexer.addToken(token)`
			`}`

Lexer can now tokenize minus decrement return direction separator 2022-08-10 12:18:28 -06:00			`return`
			`}`

Lexer no longer hangs when encountering letters 2022-08-10 11:59:09 -06:00			`// addToken adds a new token to the lexer's token slice.`
LexingOperation now stores the list of tokens 2022-08-09 20:12:14 -06:00			`func (lexer *LexingOperation) addToken (token Token) {`
			`lexer.tokens = append(lexer.tokens, token)`
			`}`

Lexer no longer hangs when encountering letters 2022-08-10 11:59:09 -06:00			`// skipSpaces skips all space characters (not tabs or newlines)`
			`func (lexer *LexingOperation) skipSpaces () (err error) {`
			`for lexer.char == ' ' {`
			`err = lexer.nextRune()`
			`if err != nil { return }`
			`}`

			`return`
			`}`

Laid out basic lexer structure 2022-08-09 18:45:06 -06:00			`// nextRune advances the lexer to the next rune in the file.`
			`func (lexer *LexingOperation) nextRune () (err error) {`
			`lexer.char, _, err = lexer.file.ReadRune()`
			`if err != nil && err != io.EOF {`
			`return file.NewError (`
			`lexer.file.Location(), 1,`
			`err.Error(), file.ErrorKindError)`
			`}`
Added lexer stub 2022-08-07 13:18:59 -06:00			`return`
			`}`