diff --git a/article.go b/article.go index 3e21079..b669032 100644 --- a/article.go +++ b/article.go @@ -10,6 +10,7 @@ import ( // Article is a collection of properties extracted from the HTML body type Article struct { Title string `json:"title,omitempty"` + H1 string `json:"h1,omitempty"` TitleUnmodified string `json:"titleunmodified,omitempty"` CleanedText string `json:"content,omitempty"` MetaDescription string `json:"description,omitempty"` diff --git a/crawler.go b/crawler.go index c1ea91f..50e531c 100644 --- a/crawler.go +++ b/crawler.go @@ -125,6 +125,7 @@ func (c Crawler) Crawl(RawHTML string, url string) (*Article, error) { article.FinalURL = url article.Doc = document + article.H1 = extractor.GetH1(document) article.Title = extractor.GetTitle(document) article.TitleUnmodified = extractor.getTitleUnmodified(document) article.MetaLang = extractor.GetMetaLanguage(document) diff --git a/extractor.go b/extractor.go index 3695506..7bf3674 100644 --- a/extractor.go +++ b/extractor.go @@ -50,6 +50,22 @@ func NewExtractor(config Configuration) ContentExtractor { } } +// GetH1 ... +func (extr *ContentExtractor) GetH1(document *goquery.Document) string { + h1 := "" + + titleElement := document.Find("h1") + if titleElement != nil && titleElement.Size() > 0 { + h1 = titleElement.Text() + } + + if extr.config.debug { + log.Printf("Page title is %s\n", h1) + } + + return strings.TrimSpace(h1) +} + //if the article has a title set in the source, use that func (extr *ContentExtractor) getTitleUnmodified(document *goquery.Document) string { title := "" diff --git a/stopwords.go b/stopwords.go index 941794d..d684345 100644 --- a/stopwords.go +++ b/stopwords.go @@ -2025,6 +2025,217 @@ tjänsteman skarpt kritiserade `, + "tr": ` + acaba + altmış + altı + ama + ancak + arada + aslında + ayrıca + bana + bazı + belki + ben + benden + beni + benim + beri + beş + bile + bin + bir + birçok + biri + birkaç + birkez + birşey + birşeyi + biz + bize + bizden + bizi + bizim + böyle + böylece + bu + buna + bunda + bundan + bunlar + bunları + bunların + bunu + bunun + burada + çok + çünkü + da + daha + dahi + de + defa + değil + diğer + diye + doksan + dokuz + dolayı + dolayısıyla + dört + edecek + eden + ederek + edilecek + ediliyor + edilmesi + ediyor + eğer + elli + en + etmesi + etti + ettiği + ettiğini + gibi + göre + halen + hangi + hatta + hem + henüz + hep + hepsi + her + herhangi + herkesin + hiç + hiçbir + için + iki + ile + ilgili + ise + işte + itibaren + itibariyle + kadar + karşın + katrilyon + kendi + kendilerine + kendini + kendisi + kendisine + kendisini + kez + ki + kim + kimden + kime + kimi + kimse + kırk + milyar + milyon + mu + mü + mı + nasıl + ne + neden + nedenle + nerde + nerede + nereye + niye + niçin + o + olan + olarak + oldu + olduğu + olduğunu + olduklarını + olmadı + olmadığı + olmak + olması + olmayan + olmaz + olsa + olsun + olup + olur + olursa + oluyor + on + ona + ondan + onlar + onlardan + onları + onların + onu + onun + otuz + oysa + öyle + pek + rağmen + sadece + sanki + sekiz + seksen + sen + senden + seni + senin + siz + sizden + sizi + sizin + şey + şeyden + şeyi + şeyler + şöyle + şu + şuna + şunda + şundan + şunları + şunu + tarafından + trilyon + tüm + üç + üzere + var + vardı + ve + veya + ya + yani + yapacak + yapılan + yapılması + yapıyor + yapmak + yaptı + yaptığı + yaptığını + yaptıkları + yedi + yerine + yetmiş + yine + yirmi + yoksa + yüz + zaten + `, "zh": ` 的 一