Projet MAD

Web crawling de Wikipedia, en partant de la page concernant l'analyse de données.

Installation

  # Install dependencies
  bundle

Usage

Crawling à partir de URL, de profondeur DEPTH du parcours, avec THREAD_COUNT threads en parallèle, et écriture des données dans FILE sous la forme : url\tmot\tfrequence\n

  ruby crawler.rb URL FILE DEPTH THREAD_COUNT

On peut stopper le processus sans conséquence.

Analyse des données, en prenant les WORD_COUNT mots les plus fréquents dans tous les documents, qu'on appelle par la commande :

  ruby analyzer.rb SRC DEST WORD_COUNT

où SRC est le fichier à analyser, DEST le fichier dans lequel on écrit les résultats

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.rbenv-version		.rbenv-version
Gemfile		Gemfile
Gemfile.lock		Gemfile.lock
README.md		README.md
analyse.rb		analyse.rb
analyzer.rb		analyzer.rb
crawler.rb		crawler.rb
freqs.txt		freqs.txt
stopwords.txt		stopwords.txt
wikiwords.txt		wikiwords.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet MAD

Installation

Usage

About

Releases

Packages

Languages

suruja/mad

Folders and files

Latest commit

History

Repository files navigation

Projet MAD

Installation

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages