Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

New feature h1 #62

Open
wants to merge 2 commits into
base: master
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
1 change: 1 addition & 0 deletions article.go
Original file line number Diff line number Diff line change
Expand Up @@ -10,6 +10,7 @@ import (
// Article is a collection of properties extracted from the HTML body
type Article struct {
Title string `json:"title,omitempty"`
H1 string `json:"h1,omitempty"`
TitleUnmodified string `json:"titleunmodified,omitempty"`
CleanedText string `json:"content,omitempty"`
MetaDescription string `json:"description,omitempty"`
Expand Down
1 change: 1 addition & 0 deletions crawler.go
Original file line number Diff line number Diff line change
Expand Up @@ -125,6 +125,7 @@ func (c Crawler) Crawl(RawHTML string, url string) (*Article, error) {
article.FinalURL = url
article.Doc = document

article.H1 = extractor.GetH1(document)
article.Title = extractor.GetTitle(document)
article.TitleUnmodified = extractor.getTitleUnmodified(document)
article.MetaLang = extractor.GetMetaLanguage(document)
Expand Down
16 changes: 16 additions & 0 deletions extractor.go
Original file line number Diff line number Diff line change
Expand Up @@ -50,6 +50,22 @@ func NewExtractor(config Configuration) ContentExtractor {
}
}

// GetH1 ...
func (extr *ContentExtractor) GetH1(document *goquery.Document) string {
h1 := ""

titleElement := document.Find("h1")
if titleElement != nil && titleElement.Size() > 0 {
h1 = titleElement.Text()
}

if extr.config.debug {
log.Printf("Page title is %s\n", h1)
}

return strings.TrimSpace(h1)
}

//if the article has a title set in the source, use that
func (extr *ContentExtractor) getTitleUnmodified(document *goquery.Document) string {
title := ""
Expand Down
211 changes: 211 additions & 0 deletions stopwords.go
Original file line number Diff line number Diff line change
Expand Up @@ -2025,6 +2025,217 @@ tjänsteman
skarpt
kritiserade
`,
"tr": `
acaba
altmış
altı
ama
ancak
arada
aslında
ayrıca
bana
bazı
belki
ben
benden
beni
benim
beri
beş
bile
bin
bir
birçok
biri
birkaç
birkez
birşey
birşeyi
biz
bize
bizden
bizi
bizim
böyle
böylece
bu
buna
bunda
bundan
bunlar
bunları
bunların
bunu
bunun
burada
çok
çünkü
da
daha
dahi
de
defa
değil
diğer
diye
doksan
dokuz
dolayı
dolayısıyla
dört
edecek
eden
ederek
edilecek
ediliyor
edilmesi
ediyor
eğer
elli
en
etmesi
etti
ettiği
ettiğini
gibi
göre
halen
hangi
hatta
hem
henüz
hep
hepsi
her
herhangi
herkesin
hiç
hiçbir
için
iki
ile
ilgili
ise
işte
itibaren
itibariyle
kadar
karşın
katrilyon
kendi
kendilerine
kendini
kendisi
kendisine
kendisini
kez
ki
kim
kimden
kime
kimi
kimse
kırk
milyar
milyon
mu
nasıl
ne
neden
nedenle
nerde
nerede
nereye
niye
niçin
o
olan
olarak
oldu
olduğu
olduğunu
olduklarını
olmadı
olmadığı
olmak
olması
olmayan
olmaz
olsa
olsun
olup
olur
olursa
oluyor
on
ona
ondan
onlar
onlardan
onları
onların
onu
onun
otuz
oysa
öyle
pek
rağmen
sadece
sanki
sekiz
seksen
sen
senden
seni
senin
siz
sizden
sizi
sizin
şey
şeyden
şeyi
şeyler
şöyle
şu
şuna
şunda
şundan
şunları
şunu
tarafından
trilyon
tüm
üç
üzere
var
vardı
ve
veya
ya
yani
yapacak
yapılan
yapılması
yapıyor
yapmak
yaptı
yaptığı
yaptığını
yaptıkları
yedi
yerine
yetmiş
yine
yirmi
yoksa
yüz
zaten
`,
"zh": `
Expand Down