From 893498a8a76a28fa48f32cc3807abb2d03c2e7dd Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?M=C3=BCcahit=20Aktepe?= Date: Fri, 25 Oct 2019 12:22:57 +0300 Subject: [PATCH 1/2] Added Turkish Stop Words --- stopwords.go | 211 +++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 211 insertions(+) diff --git a/stopwords.go b/stopwords.go index 941794d..d684345 100644 --- a/stopwords.go +++ b/stopwords.go @@ -2025,6 +2025,217 @@ tjänsteman skarpt kritiserade `, + "tr": ` + acaba + altmış + altı + ama + ancak + arada + aslında + ayrıca + bana + bazı + belki + ben + benden + beni + benim + beri + beş + bile + bin + bir + birçok + biri + birkaç + birkez + birşey + birşeyi + biz + bize + bizden + bizi + bizim + böyle + böylece + bu + buna + bunda + bundan + bunlar + bunları + bunların + bunu + bunun + burada + çok + çünkü + da + daha + dahi + de + defa + değil + diğer + diye + doksan + dokuz + dolayı + dolayısıyla + dört + edecek + eden + ederek + edilecek + ediliyor + edilmesi + ediyor + eğer + elli + en + etmesi + etti + ettiği + ettiğini + gibi + göre + halen + hangi + hatta + hem + henüz + hep + hepsi + her + herhangi + herkesin + hiç + hiçbir + için + iki + ile + ilgili + ise + işte + itibaren + itibariyle + kadar + karşın + katrilyon + kendi + kendilerine + kendini + kendisi + kendisine + kendisini + kez + ki + kim + kimden + kime + kimi + kimse + kırk + milyar + milyon + mu + mü + mı + nasıl + ne + neden + nedenle + nerde + nerede + nereye + niye + niçin + o + olan + olarak + oldu + olduğu + olduğunu + olduklarını + olmadı + olmadığı + olmak + olması + olmayan + olmaz + olsa + olsun + olup + olur + olursa + oluyor + on + ona + ondan + onlar + onlardan + onları + onların + onu + onun + otuz + oysa + öyle + pek + rağmen + sadece + sanki + sekiz + seksen + sen + senden + seni + senin + siz + sizden + sizi + sizin + şey + şeyden + şeyi + şeyler + şöyle + şu + şuna + şunda + şundan + şunları + şunu + tarafından + trilyon + tüm + üç + üzere + var + vardı + ve + veya + ya + yani + yapacak + yapılan + yapılması + yapıyor + yapmak + yaptı + yaptığı + yaptığını + yaptıkları + yedi + yerine + yetmiş + yine + yirmi + yoksa + yüz + zaten + `, "zh": ` 的 一 From b984ff04b29737227540ce0227ac69068cce4dd7 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?M=C3=BCcahit=20Aktepe?= Date: Fri, 25 Oct 2019 12:34:17 +0300 Subject: [PATCH 2/2] Added H1 to the Article --- article.go | 1 + crawler.go | 1 + extractor.go | 16 ++++++++++++++++ 3 files changed, 18 insertions(+) diff --git a/article.go b/article.go index 3e21079..b669032 100644 --- a/article.go +++ b/article.go @@ -10,6 +10,7 @@ import ( // Article is a collection of properties extracted from the HTML body type Article struct { Title string `json:"title,omitempty"` + H1 string `json:"h1,omitempty"` TitleUnmodified string `json:"titleunmodified,omitempty"` CleanedText string `json:"content,omitempty"` MetaDescription string `json:"description,omitempty"` diff --git a/crawler.go b/crawler.go index c1ea91f..50e531c 100644 --- a/crawler.go +++ b/crawler.go @@ -125,6 +125,7 @@ func (c Crawler) Crawl(RawHTML string, url string) (*Article, error) { article.FinalURL = url article.Doc = document + article.H1 = extractor.GetH1(document) article.Title = extractor.GetTitle(document) article.TitleUnmodified = extractor.getTitleUnmodified(document) article.MetaLang = extractor.GetMetaLanguage(document) diff --git a/extractor.go b/extractor.go index 3695506..7bf3674 100644 --- a/extractor.go +++ b/extractor.go @@ -50,6 +50,22 @@ func NewExtractor(config Configuration) ContentExtractor { } } +// GetH1 ... +func (extr *ContentExtractor) GetH1(document *goquery.Document) string { + h1 := "" + + titleElement := document.Find("h1") + if titleElement != nil && titleElement.Size() > 0 { + h1 = titleElement.Text() + } + + if extr.config.debug { + log.Printf("Page title is %s\n", h1) + } + + return strings.TrimSpace(h1) +} + //if the article has a title set in the source, use that func (extr *ContentExtractor) getTitleUnmodified(document *goquery.Document) string { title := ""