-
Notifications
You must be signed in to change notification settings - Fork 0
/
page.cc
49 lines (40 loc) · 1.1 KB
/
page.cc
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
#include "page.h"
#include "exceptions.h"
#include "entity.h"
#include <boost/filesystem/path.hpp>
#include <buffio.h> // Tidy ma zjebane te naglowki
bool is_html(const std::string& content) {
return (content.find("text/html") != std::string::npos);
}
Bool ignore(TidyDoc tdoc, TidyReportLevel lvl, uint line, uint col, ctmbstr mssg ) {
return no;
}
TidyDoc tidy_create() {
TidyDoc ret = tidyCreate();
// Dokumentacja Tidy k#@$@sko dokladnie opisuje wartosci zwracane z tych
// funkcji.
tidySetReportFilter(ret, ignore);
tidySetCharEncoding(ret, "raw");
return ret;
};
Page::Page(const Entity& page) : tree(NULL) {
if(!is_html(page.get_content_type())) {
throw ekhem::entity_is_not_webpage(page.get_content_type() + " " + page.get_url());
}
tree = tidy_create();
tidyParseString(tree, page.get_text().c_str());
}
Page::Page(const boost::filesystem::path& path) : tree(tidy_create()) {
tidyParseFile(tree, path.string().c_str());
}
Page::~Page() {
if(tree)
tidyRelease(tree);
}
const TidyNode Page::root() const {
assert(tree);
return tidyGetRoot(tree);
}
TidyDoc& Page::document() {
return tree;
}