mjl- · Mizuho32 · Oct 14, 2024 · Oct 14, 2024 · Oct 15, 2024 · Oct 15, 2024
diff --git a/go.mod b/go.mod
@@ -13,11 +13,12 @@ require (
 	github.com/mjl-/sherpats v0.0.6
 	github.com/prometheus/client_golang v1.18.0
 	github.com/russross/blackfriday/v2 v2.1.0
+	github.com/saintfish/chardet v0.0.0-20230101081208-5e3ef4b5456d
 	go.etcd.io/bbolt v1.3.11
 	golang.org/x/crypto v0.27.0
 	golang.org/x/exp v0.0.0-20240416160154-fe59bbe5cc7f
 	golang.org/x/net v0.29.0
-	golang.org/x/text v0.18.0
+	golang.org/x/text v0.19.0
 	rsc.io/qr v0.2.0
 )
 

diff --git a/go.sum b/go.sum
@@ -63,6 +63,8 @@ github.com/prometheus/procfs v0.12.0 h1:jluTpSng7V9hY0O2R9DzzJHYb2xULk9VTR1V1R/k
 github.com/prometheus/procfs v0.12.0/go.mod h1:pcuDEFsWDnvcgNzo4EEweacyhjeA9Zk3cnaOZAZEfOo=
 github.com/russross/blackfriday/v2 v2.1.0 h1:JIOH55/0cWyOuilr9/qlrm0BSXldqnqwMsf35Ld67mk=
 github.com/russross/blackfriday/v2 v2.1.0/go.mod h1:+Rmxgy9KzJVeS9/2gXHxylqXiyQDYRxCVz55jmeOWTM=
+github.com/saintfish/chardet v0.0.0-20230101081208-5e3ef4b5456d h1:hrujxIzL1woJ7AwssoOcM/tq5JjjG2yYOc8odClEiXA=
+github.com/saintfish/chardet v0.0.0-20230101081208-5e3ef4b5456d/go.mod h1:uugorj2VCxiV1x+LzaIdVa9b4S4qGAcH6cbhh4qVxOU=
 github.com/sirupsen/logrus v1.2.0/go.mod h1:LxeOpSwHxABJmUn/MG1IvRgCAasNZTLOkJPxbbu5VWo=
 github.com/stretchr/objx v0.1.1/go.mod h1:HFkY916IF+rwdDfMAkV7OtwuqBVzrE8GR6GFx+wExME=
 github.com/stretchr/testify v1.2.2/go.mod h1:a8OnRcib4nhh0OaRAV+Yts87kKdq0PP7pXfy6kDkUVs=
@@ -97,8 +99,8 @@ golang.org/x/sys v0.0.0-20190412213103-97732733099d/go.mod h1:h1NjWce9XRLGQEsW7w
 golang.org/x/sys v0.25.0 h1:r+8e+loiHxRqhXVl6ML1nO3l1+oFoWbnlu2Ehimmi34=
 golang.org/x/sys v0.25.0/go.mod h1:/VUhepiaJMQUp4+oa/7Zr1D23ma6VTLIYjOOTFZPUcA=
 golang.org/x/text v0.3.0/go.mod h1:NqM8EUOU14njkJ3fqMW+pc6Ldnwhi/IjpwHt7yyuwOQ=
-golang.org/x/text v0.18.0 h1:XvMDiNzPAl0jr17s6W9lcaIhGUfUORdGCNsuLmPG224=
-golang.org/x/text v0.18.0/go.mod h1:BuEKDfySbSR4drPmRPG/7iBdf8hvFMuRexcpahXilzY=
+golang.org/x/text v0.19.0 h1:kTxAhCbGbxhK0IwgSKiMO5awPoDQ0RpfiVYBfK860YM=
+golang.org/x/text v0.19.0/go.mod h1:BuEKDfySbSR4drPmRPG/7iBdf8hvFMuRexcpahXilzY=
 golang.org/x/tools v0.0.0-20191119224855-298f0cb1881e/go.mod h1:b+2E5dAYhXwXZwtnZ6UAqBI28+e2cm9otk0dWdXHAEo=
 golang.org/x/tools v0.25.0 h1:oFU9pkj/iJgs+0DT+VMHrx+oBKs/LJMV+Uvg78sl+fE=
 golang.org/x/tools v0.25.0/go.mod h1:/vtpO8WL1N9cQC3FN5zPqb//fRXskFHbLKk4OW1Q7rg=

diff --git a/message/part.go b/message/part.go
@@ -245,6 +245,10 @@ func (p *Part) String() string {
 	return fmt.Sprintf("&Part{%s/%s offsets %d/%d/%d/%d lines %d decodedsize %d next %d last %d bound %q parts %v}", p.MediaType, p.MediaSubType, p.BoundaryOffset, p.HeaderOffset, p.BodyOffset, p.EndOffset, p.RawLineCount, p.DecodedSize, p.nextBoundOffset, p.lastBoundOffset, p.bound, p.Parts)
 }
 
+func (p *Part) GetBound() string {
+	return string(p.bound)
+}
+
 // newPart parses a new part, which can be the top-level message.
 // offset is the bound offset for parts, and the start of message for top-level messages. parent indicates if this is a top-level message or sub-part.
 // If an error occurs, p's exported values can still be relevant. EnsurePart uses these values.

diff --git a/store/account.go b/store/account.go
@@ -1855,12 +1855,31 @@ ruleset:
 
 	header:
 		for _, t := range rs.HeadersRegexpCompiled {
+			isSubjectMatch := t[0].MatchString("subject")
 			for k, vl := range header {
 				k = strings.ToLower(k)
+				if t[0].MatchString("body") { // message body match
+					ws := PrepareWordSearch([]string{t[1].String()}, []string{})
+					// todo: regexp match
+					ok, err := ws.MatchPart(log, &p, true)
+					if err != nil {
+						log.Errorx("Failed to match body: %v", err)
+					}
+					if ok {
+						continue header
+					}
+				}
 				if !t[0].MatchString(k) {
 					continue
 				}
 				for _, v := range vl {
+					if isSubjectMatch {
+						// todo: memorize decoded text
+						v, err = decodeRFC2047(v)
+						if err != nil {
+							log.Errorx("Failed to decode subject: %v", err, slog.String("v", v))
+						}
+					}
 					v = strings.ToLower(strings.TrimSpace(v))
 					if t[1].MatchString(v) {
 						continue header

diff --git a/store/search.go b/store/search.go
@@ -2,13 +2,22 @@ package store
 
 import (
 	"bytes"
+	"encoding/base64"
+	"fmt"
 	"io"
+	"mime/quotedprintable"
+	"regexp"
 	"strings"
 	"unicode"
 	"unicode/utf8"
 
 	"github.com/mjl-/mox/message"
 	"github.com/mjl-/mox/mlog"
+
+	"golang.org/x/text/encoding"
+	"golang.org/x/text/encoding/japanese"
+	encUnicode "golang.org/x/text/encoding/unicode"
+	"golang.org/x/text/transform"
 )
 
 // WordSearch holds context for a search, with scratch buffers to prevent
@@ -82,11 +91,26 @@ func (ws WordSearch) matchPart(log mlog.Log, p *message.Part, headerToo bool, se
 	}
 
 	if len(p.Parts) == 0 {
+		var tp io.Reader
 		if p.MediaType != "TEXT" {
-			// todo: for other types we could try to find a library for parsing and search in there too.
-			return false, nil
+			if p.MediaType == "MULTIPART" {
+				// Decode and make io.Reader
+				// todo: avoid to load all content
+				content, err := io.ReadAll(p.RawReader())
+				if err != nil {
+					return false, err
+				}
+				tp, err = decodeMultiPart(string(content), p.GetBound())
+				if err != nil {
+					return false, err
+				}
+			} else {
+				// todo: for other types we could try to find a library for parsing and search in there too.
+				return false, nil
+			}
+		} else {
+			tp = p.ReaderUTF8OrBinary()
 		}
-		tp := p.ReaderUTF8OrBinary()
 		// todo: for html and perhaps other types, we could try to parse as text and filter on the text.
 		miss, err := ws.searchReader(log, tp, seen)
 		if miss || err != nil || ws.isQuickHit(seen) {
@@ -193,3 +217,148 @@ func toLower(buf []byte) []byte {
 	}
 	return r
 }
+
+func decodeRFC2047(encoded string) (string, error) {
+	// match e.g. =?(iso-2022-jp)?(B)?(Rnc6...)?=
+	r := regexp.MustCompile(`(?i)=\?([^?]+)\?([BQ])\?([^?]+)\?=`)
+	matches := r.FindAllStringSubmatch(encoded, -1)
+
+	if len(matches) == 0 { // no match. Looks ASCII.
+		return encoded, nil
+	}
+
+	var decodedStrings []string
+	for _, match := range matches {
+		charset := match[1]
+		encodingName := match[2]
+		encodedText := match[3]
+
+		reader, err := decodeTransferEncodeAndCharset(encodingName, charset, encodedText)
+		if err != nil {
+			return encoded, err
+		}
+
+		decodedText, err := io.ReadAll(reader)
+		if err != nil {
+			return encoded, err
+		}
+
+		decodedStrings = append(decodedStrings, string(decodedText))
+	}
+
+	// Concat multiple strings
+	return strings.Join(decodedStrings, ""), nil
+}
+
+func decodeTransferEncodeAndCharset(encodingName string, charset string, encodedText string) (io.Reader, error) {
+	decodedString, err := decodeTransferEncode(encodingName, encodedText)
+	if len(decodedString) == 0 && err != nil {
+		return nil, err
+	}
+
+	// try to decode even if unknown encoding
+	reader, err := decodeCharset(charset, decodedString)
+	if err != nil {
+		return nil, err
+	}
+	return reader, nil
+}
+
+// Decode Base64 or Quoted Printable
+func decodeTransferEncode(encodingName string, encodedText string) (string, error) {
+	// Decode Base64 or Quoted-Printable
+	var decodedBytes []byte
+	var err error
+	switch strings.ToUpper(encodingName) {
+	case "B": // Base64
+		decodedBytes, err = base64.StdEncoding.DecodeString(encodedText)
+		if err != nil {
+			return string(decodedBytes), fmt.Errorf("Base64 decode error: %w", err)
+		}
+	case "Q": // Quoted-Printable
+		decodedBytes, err = io.ReadAll(quotedprintable.NewReader(strings.NewReader(encodedText)))
+		if err != nil {
+			return string(decodedBytes), fmt.Errorf("Quoted-Printable decode error: %w", err)
+		}
+	default:
+		return encodedText, fmt.Errorf("not supported encoding: %s", encodingName)
+	}
+	return string(decodedBytes), nil
+}
+
+func decodeCharset(charset string, decodedString string) (io.Reader, error) {
+	// Select charset
+	var enc encoding.Encoding
+	switch strings.ToLower(charset) {
+	case "iso-2022-jp":
+		enc = japanese.ISO2022JP
+	case "utf-8":
+		enc = encUnicode.UTF8
+	case "us-ascii":
+		return strings.NewReader(decodedString), nil
+	default:
+		return nil, fmt.Errorf("not supported charset: %s", charset)
+	}
+
+	// Decode with charset
+	reader := transform.NewReader(strings.NewReader(decodedString), enc.NewDecoder())
+	return reader, nil
+}
+
+func decodeMultiPart(body string, boundary string) (io.Reader, error) {
+	encPattern := `Content-Transfer-Encoding:\s+(\w+)`
+	charsetPattern := `charset="((?:\w|-)+)"`
+
+	// Regexp for MIME encode type & Charset match
+	encRe, err := regexp.Compile(encPattern)
+	if err != nil {
+		return nil, fmt.Errorf("error compiling regex:%v", err)
+	}
+	charsetRe, err := regexp.Compile(charsetPattern)
+	if err != nil {
+		return nil, fmt.Errorf("error compiling regex:%v", err)
+	}
+
+	// Split by boundary
+	parts := strings.Split(body, boundary)
+	var readers []io.Reader
+
+	// Make decoded io.Readers for each part
+	for _, part := range parts {
+		part = strings.TrimSpace(part)
+		if len(part) == 0 {
+			continue
+		}
+
+		// Extract MIME header and body
+		headerBody := strings.SplitN(part, "\r\n\r\n", 2)
+		if len(headerBody) < 2 {
+			// retry
+			headerBody = strings.SplitN(part, "\n\n", 2)
+			if len(headerBody) < 2 {
+				continue
+			}
+		}
+
+		mimeHeader := headerBody[0]
+		encodedBody := headerBody[1]
+
+		// Find encode types
+		encMatches := encRe.FindStringSubmatch(mimeHeader)
+		charsetMatches := charsetRe.FindStringSubmatch(mimeHeader)
+
+		// Decode
+		if len(encMatches) > 1 && len(charsetMatches) > 1 {
+			reader, err := decodeTransferEncodeAndCharset(encMatches[1][0:1], charsetMatches[1], encodedBody)
+			if err != nil {
+				return nil, err
+			}
+			readers = append(readers, reader)
+
+		} else {
+			return nil, fmt.Errorf("failed to match encoding and charset in:\n%s", mimeHeader)
+		}
+	}
+
+	return io.MultiReader(readers...), nil
+}
diff --git a/store/search_test.go b/store/search_test.go
@@ -0,0 +1,86 @@
+package store
+
+import (
+	"fmt"
+	"io"
+	"log/slog"
+	"os"
+	"strings"
+	"testing"
+
+	"github.com/mjl-/mox/message"
+	"github.com/mjl-/mox/mlog"
+)
+
+func TestSubjectMatch(t *testing.T) {
+	// Auto detect subject text encoding and decode
+
+	//log := mlog.New("search", nil)
+
+	originalSubject := `テストテキスト Abc 123...`
+	asciiSubject := "test text Abc 123..."
+
+	encodedSubjectUTF8 := `=?UTF-8?b?44OG44K544OI44OG44Kt44K544OIIEFiYyAxMjMuLi4=?=`
+	encodedSubjectISO2022 := `=?iso-2022-jp?B?GyRCJUYlOSVIJUYlLSU5JUgbKEIgQWJjIDEyMy4uLg==?=`
+	encodedSubjectUTF8 = encodedSubjectUTF8 + " \n " + encodedSubjectUTF8
+	encodedSubjectISO2022 = encodedSubjectISO2022 + " \n " + encodedSubjectISO2022
+	originalSubject = originalSubject + originalSubject
+
+	encodedTexts := map[string]string{encodedSubjectUTF8: originalSubject, encodedSubjectISO2022: originalSubject, asciiSubject: asciiSubject}
+
+	for encodedSubject, originalSubject := range encodedTexts {
+
+		// Autodetect & decode
+		decodedSubject, err := decodeRFC2047(encodedSubject)
+
+		fmt.Printf("decoded text:%s\n", decodedSubject)
+		if err != nil {
+			t.Fatalf("Decode error: %v", err)
+		}
+
+		if originalSubject != decodedSubject {
+			t.Fatalf("Decode mismatch %s != %s", originalSubject, decodedSubject)
+		}
+	}
+}
+
+func TestMultipartMailDecode(t *testing.T) {
+	log := mlog.New("search", nil)
+
+	// Load raw mail file
+	filePath := "../../data/mail_raw.txt" // multipart mail raw data
+	wordFilePath := "../../data/word.txt"
+
+	msgFile, err := os.Open(filePath)
+	if err != nil {
+		t.Fatalf("Failed to open file: %v", err)
+	}
+	defer msgFile.Close()
+
+	// load word
+	wordFile, err := os.Open(wordFilePath)
+	if err != nil {
+		t.Fatalf("Failed to open file: %v", err)
+	}
+	defer wordFile.Close()
+	tmp, err := io.ReadAll(wordFile)
+	if err != nil {
+		t.Fatalf("Failed to load search word: %v", err)
+	}
+	searchWord := strings.TrimSpace(string(tmp))
+
+	// Parse mail
+	mr := FileMsgReader([]byte{}, msgFile)
+	p, err := message.Parse(log.Logger, false, mr)
+	if err != nil {
+		t.Fatalf("parsing message for evaluating rulesets, continuing with headers %v, %s", err, slog.String("parse", ""))
+	}
+
+	// Match
+	ws := PrepareWordSearch([]string{searchWord}, []string{})
+	ok, _ := ws.MatchPart(log, &p, true)
+	if !ok {
+		t.Fatalf("Match failed %s", ws.words)
+	}
+	log.Debug("Check match", slog.String("word", string(searchWord)), slog.Bool("ok", ok))
+}
diff --git a/vendor/modules.txt b/vendor/modules.txt
@@ -61,6 +61,9 @@ github.com/prometheus/procfs/internal/util
 # github.com/russross/blackfriday/v2 v2.1.0
 ## explicit
 github.com/russross/blackfriday/v2
+# github.com/saintfish/chardet v0.0.0-20230101081208-5e3ef4b5456d
+## explicit
+github.com/saintfish/chardet
 # go.etcd.io/bbolt v1.3.11
 ## explicit; go 1.22
 go.etcd.io/bbolt
@@ -97,7 +100,7 @@ golang.org/x/sync/errgroup
 golang.org/x/sys/cpu
 golang.org/x/sys/unix
 golang.org/x/sys/windows
-# golang.org/x/text v0.18.0
+# golang.org/x/text v0.19.0
 ## explicit; go 1.18
 golang.org/x/text/cases
 golang.org/x/text/encoding