miniflux-v2/reader/feed/parser.go

// Copyright 2017 Frédéric Guillot. All rights reserved.
// Use of this source code is governed by the Apache 2.0
// license that can be found in the LICENSE file.

package feed

import (
	"bytes"
	"encoding/xml"
	"errors"
	"io"
	"strings"
	"time"

	"github.com/miniflux/miniflux/logger"
	"github.com/miniflux/miniflux/model"
	"github.com/miniflux/miniflux/reader/atom"
	"github.com/miniflux/miniflux/reader/encoding"
	"github.com/miniflux/miniflux/reader/json"
	"github.com/miniflux/miniflux/reader/rdf"
	"github.com/miniflux/miniflux/reader/rss"
	"github.com/miniflux/miniflux/timer"
)

// List of feed formats.
const (
	FormatRDF     = "rdf"
	FormatRSS     = "rss"
	FormatAtom    = "atom"
	FormatJSON    = "json"
	FormatUnknown = "unknown"
)

// DetectFeedFormat detect feed format from input data.
func DetectFeedFormat(r io.Reader) string {
	defer timer.ExecutionTime(time.Now(), "[Feed:DetectFeedFormat]")

	var buffer bytes.Buffer
	tee := io.TeeReader(r, &buffer)

	decoder := xml.NewDecoder(tee)
	decoder.CharsetReader = encoding.CharsetReader

	for {
		token, _ := decoder.Token()
		if token == nil {
			break
		}

		if element, ok := token.(xml.StartElement); ok {
			switch element.Name.Local {
			case "rss":
				return FormatRSS
			case "feed":
				return FormatAtom
			case "RDF":
				return FormatRDF
			}
		}
	}

	if strings.HasPrefix(strings.TrimSpace(buffer.String()), "{") {
		return FormatJSON
	}

	return FormatUnknown
}

func parseFeed(r io.Reader) (*model.Feed, error) {
	defer timer.ExecutionTime(time.Now(), "[Feed:ParseFeed]")

	var buffer bytes.Buffer
	size, _ := io.Copy(&buffer, r)
	if size == 0 {
		return nil, errors.New("This feed is empty")
	}

	str := stripInvalidXMLCharacters(buffer.String())
	reader := strings.NewReader(str)
	format := DetectFeedFormat(reader)
	reader.Seek(0, io.SeekStart)

	switch format {
	case FormatAtom:
		return atom.Parse(reader)
	case FormatRSS:
		return rss.Parse(reader)
	case FormatJSON:
		return json.Parse(reader)
	case FormatRDF:
		return rdf.Parse(reader)
	default:
		return nil, errors.New("Unsupported feed format")
	}
}

func stripInvalidXMLCharacters(input string) string {
	return strings.Map(func(r rune) rune {
		if isInCharacterRange(r) {
			return r
		}

		logger.Debug("Strip invalid XML characters: %U", r)
		return -1
	}, input)
}

// Decide whether the given rune is in the XML Character Range, per
// the Char production of http://www.xml.com/axml/testaxml.htm,
// Section 2.2 Characters.
func isInCharacterRange(r rune) (inrange bool) {
	return r == 0x09 ||
		r == 0x0A ||
		r == 0x0D ||
		r >= 0x20 && r <= 0xDF77 ||
		r >= 0xE000 && r <= 0xFFFD ||
		r >= 0x10000 && r <= 0x10FFFF
}
First commit 2017-11-20 06:10:04 +01:00			`// Copyright 2017 Frédéric Guillot. All rights reserved.`
			`// Use of this source code is governed by the Apache 2.0`
			`// license that can be found in the LICENSE file.`

			`package feed`

			`import (`
			`"bytes"`
			`"encoding/xml"`
			`"errors"`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`"io"`
			`"strings"`
			`"time"`

Strip invalid XML characters to avoid parsing errors 2018-02-08 05:57:56 +01:00			`"github.com/miniflux/miniflux/logger"`
Rewrite imports 2017-12-13 06:48:13 +01:00			`"github.com/miniflux/miniflux/model"`
			`"github.com/miniflux/miniflux/reader/atom"`
Handle more encoding edge cases - Feeds with charset specified only in Content-Type header and not in XML document - Feeds with charset specified in both places - Feeds with charset specified only in XML document and not in HTTP header 2018-01-20 07:42:55 +01:00			`"github.com/miniflux/miniflux/reader/encoding"`
Rewrite imports 2017-12-13 06:48:13 +01:00			`"github.com/miniflux/miniflux/reader/json"`
			`"github.com/miniflux/miniflux/reader/rdf"`
			`"github.com/miniflux/miniflux/reader/rss"`
Rename helper packages 2018-01-03 04:15:08 +01:00			`"github.com/miniflux/miniflux/timer"`
First commit 2017-11-20 06:10:04 +01:00			`)`

Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`// List of feed formats.`
First commit 2017-11-20 06:10:04 +01:00			`const (`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`FormatRDF = "rdf"`
			`FormatRSS = "rss"`
First commit 2017-11-20 06:10:04 +01:00			`FormatAtom = "atom"`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`FormatJSON = "json"`
First commit 2017-11-20 06:10:04 +01:00			`FormatUnknown = "unknown"`
			`)`

Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`// DetectFeedFormat detect feed format from input data.`
Handle more encoding edge cases - Feeds with charset specified only in Content-Type header and not in XML document - Feeds with charset specified in both places - Feeds with charset specified only in XML document and not in HTTP header 2018-01-20 07:42:55 +01:00			`func DetectFeedFormat(r io.Reader) string {`
Rename helper packages 2018-01-03 04:15:08 +01:00			`defer timer.ExecutionTime(time.Now(), "[Feed:DetectFeedFormat]")`
First commit 2017-11-20 06:10:04 +01:00
			`var buffer bytes.Buffer`
Handle more encoding edge cases - Feeds with charset specified only in Content-Type header and not in XML document - Feeds with charset specified in both places - Feeds with charset specified only in XML document and not in HTTP header 2018-01-20 07:42:55 +01:00			`tee := io.TeeReader(r, &buffer)`
First commit 2017-11-20 06:10:04 +01:00
			`decoder := xml.NewDecoder(tee)`
Handle more encoding edge cases - Feeds with charset specified only in Content-Type header and not in XML document - Feeds with charset specified in both places - Feeds with charset specified only in XML document and not in HTTP header 2018-01-20 07:42:55 +01:00			`decoder.CharsetReader = encoding.CharsetReader`
First commit 2017-11-20 06:10:04 +01:00
			`for {`
			`token, _ := decoder.Token()`
			`if token == nil {`
			`break`
			`}`

			`if element, ok := token.(xml.StartElement); ok {`
			`switch element.Name.Local {`
			`case "rss":`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`return FormatRSS`
First commit 2017-11-20 06:10:04 +01:00			`case "feed":`
			`return FormatAtom`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`case "RDF":`
			`return FormatRDF`
First commit 2017-11-20 06:10:04 +01:00			`}`
			`}`
			`}`

			`if strings.HasPrefix(strings.TrimSpace(buffer.String()), "{") {`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`return FormatJSON`
First commit 2017-11-20 06:10:04 +01:00			`}`

			`return FormatUnknown`
			`}`

Handle more encoding edge cases - Feeds with charset specified only in Content-Type header and not in XML document - Feeds with charset specified in both places - Feeds with charset specified only in XML document and not in HTTP header 2018-01-20 07:42:55 +01:00			`func parseFeed(r io.Reader) (*model.Feed, error) {`
Rename helper packages 2018-01-03 04:15:08 +01:00			`defer timer.ExecutionTime(time.Now(), "[Feed:ParseFeed]")`
First commit 2017-11-20 06:10:04 +01:00
			`var buffer bytes.Buffer`
Improve error handling when the response is empty 2018-02-08 03:47:47 +01:00			`size, _ := io.Copy(&buffer, r)`
			`if size == 0 {`
			`return nil, errors.New("This feed is empty")`
			`}`
First commit 2017-11-20 06:10:04 +01:00
Strip invalid XML characters to avoid parsing errors 2018-02-08 05:57:56 +01:00			`str := stripInvalidXMLCharacters(buffer.String())`
			`reader := strings.NewReader(str)`
First commit 2017-11-20 06:10:04 +01:00			`format := DetectFeedFormat(reader)`
			`reader.Seek(0, io.SeekStart)`

			`switch format {`
			`case FormatAtom:`
			`return atom.Parse(reader)`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`case FormatRSS:`
First commit 2017-11-20 06:10:04 +01:00			`return rss.Parse(reader)`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`case FormatJSON:`
First commit 2017-11-20 06:10:04 +01:00			`return json.Parse(reader)`
Add parser for RDF feeds 2017-11-21 03:34:11 +01:00			`case FormatRDF:`
			`return rdf.Parse(reader)`
First commit 2017-11-20 06:10:04 +01:00			`default:`
			`return nil, errors.New("Unsupported feed format")`
			`}`
			`}`
Strip invalid XML characters to avoid parsing errors 2018-02-08 05:57:56 +01:00
			`func stripInvalidXMLCharacters(input string) string {`
			`return strings.Map(func(r rune) rune {`
			`if isInCharacterRange(r) {`
			`return r`
			`}`

			`logger.Debug("Strip invalid XML characters: %U", r)`
			`return -1`
			`}, input)`
			`}`

			`// Decide whether the given rune is in the XML Character Range, per`
			`// the Char production of http://www.xml.com/axml/testaxml.htm,`
			`// Section 2.2 Characters.`
			`func isInCharacterRange(r rune) (inrange bool) {`
			`return r == 0x09 \|\|`
			`r == 0x0A \|\|`
			`r == 0x0D \|\|`
			`r >= 0x20 && r <= 0xDF77 \|\|`
			`r >= 0xE000 && r <= 0xFFFD \|\|`
			`r >= 0x10000 && r <= 0x10FFFF`
			`}`