Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajouter une fiche arrow #498

Merged
merged 100 commits into from
Jan 31, 2024
Merged
Changes from 1 commit
Commits
Show all changes
100 commits
Select commit Hold shift + click to select a range
2f1af80
Première esquisse de fiche sur arrow et duckdb
oliviermeslin Nov 19, 2023
18b5ef0
Ajouter les avantages d'arrow
oliviermeslin Nov 20, 2023
de639d0
Ajouter la fiche arrow duckdb dans le quarto book
oliviermeslin Nov 20, 2023
962da93
upgrade npm
linogaliana Nov 20, 2023
f4eef8d
upgrade npm prod
linogaliana Nov 20, 2023
8d5e0a2
Ajouter des liens
oliviermeslin Nov 20, 2023
1ac9b4b
Mise à jour des recommandations tidyverse et data.table pour prendre …
oliviermeslin Nov 20, 2023
70b8ea2
Compléments sur les recommandations
oliviermeslin Nov 20, 2023
ba0ee2b
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Nov 20, 2023
d8d6af3
Expliquer ce qu'est un Arrow Table
oliviermeslin Nov 20, 2023
b8de9ae
Ajouter la capture d'écran
oliviermeslin Nov 20, 2023
f330262
Coquille
oliviermeslin Nov 21, 2023
13558dd
Ticks
oliviermeslin Nov 21, 2023
8b4be00
Gros ajouts sur arrow
oliviermeslin Nov 21, 2023
31d28a6
Chunk options
oliviermeslin Nov 21, 2023
b710f65
Complément sur compute/collect
oliviermeslin Nov 22, 2023
cb3b1b7
Coquille
oliviermeslin Nov 22, 2023
03a1fae
Pleins d'ajouts sur arrow
oliviermeslin Nov 22, 2023
e1147ad
Changement de nom
oliviermeslin Nov 22, 2023
3ecc931
Adapter le quarto book
oliviermeslin Nov 22, 2023
0da399c
Petites modifs sur les recommandations
oliviermeslin Nov 22, 2023
bfaff29
Précision
oliviermeslin Nov 22, 2023
0ddee93
Rendre la formulation moins négative
oliviermeslin Dec 8, 2023
f8eb55a
Améliorations de détail
oliviermeslin Dec 8, 2023
1a31905
Mise en forme
oliviermeslin Dec 8, 2023
72b9896
Gros ajout sur les limites de l'évaluation différée
oliviermeslin Dec 8, 2023
20fe81e
Précision
oliviermeslin Dec 8, 2023
32bf918
Adjectif
oliviermeslin Dec 8, 2023
a64a91d
Coquille
oliviermeslin Dec 10, 2023
08384af
Nettoyage
oliviermeslin Dec 10, 2023
6fe4b4b
En l'état
oliviermeslin Dec 10, 2023
1a6f671
Complément sur les recommandations
oliviermeslin Jan 24, 2024
1cb91a7
Améliorer les formulations
oliviermeslin Jan 24, 2024
18895dc
up
oliviermeslin Jan 24, 2024
0a681f6
Solve conflict
oliviermeslin Jan 24, 2024
e5b93e9
Mise à jour GHA
oliviermeslin Jan 24, 2024
99082f8
Complément
oliviermeslin Jan 24, 2024
25b77f2
Recommandation
oliviermeslin Jan 24, 2024
f2b5dd3
gras
oliviermeslin Jan 24, 2024
9c5c325
Mise en forme
oliviermeslin Jan 24, 2024
d9ae81b
Boite
oliviermeslin Jan 24, 2024
4d46433
Indentation
oliviermeslin Jan 24, 2024
937cafb
Cross ref
oliviermeslin Jan 24, 2024
30f86e1
Bricoles
oliviermeslin Jan 24, 2024
deed123
Formulation
oliviermeslin Jan 24, 2024
7f13947
Mise en forme
oliviermeslin Jan 24, 2024
e8f6c13
Références
oliviermeslin Jan 24, 2024
0bfb6f9
Ajout sur duckdb
oliviermeslin Jan 24, 2024
e78a140
Update 03_Fiches_thematiques/Fiche_arrow.qmd
linogaliana Jan 24, 2024
e8a5bff
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 24, 2024
73c0a60
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 24, 2024
1b3f4e4
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 24, 2024
c52ab9a
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 24, 2024
a4838b0
Correction de coquilles
oliviermeslin Jan 25, 2024
03c9964
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 25, 2024
f3a402e
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
21b8f8a
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
e436414
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
effeb6b
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
adb1ce7
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
5c0daae
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 25, 2024
e274900
Remarque sur data.table
oliviermeslin Jan 26, 2024
8eac4cf
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 26, 2024
0b3b511
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 26, 2024
19f89ae
Préciser la recommandation Arrow Table versus data.frames
oliviermeslin Jan 26, 2024
fb36d37
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 26, 2024
c0b7e46
Ajout d'un conseil
oliviermeslin Jan 26, 2024
88cadc8
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 28, 2024
06153d1
Lien vers la section @sec-lazy
oliviermeslin Jan 28, 2024
c2be8b6
Complément sur data.table
oliviermeslin Jan 28, 2024
d13f4da
Ajouter un lien
oliviermeslin Jan 28, 2024
368db9b
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 28, 2024
773b63f
Remplacer les boîtes
oliviermeslin Jan 28, 2024
3855b06
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 28, 2024
cbd2c23
Section
oliviermeslin Jan 28, 2024
b1e420c
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 28, 2024
0670d05
Ajouter une partie
oliviermeslin Jan 28, 2024
2fd2023
Supprimer un mot redondant
oliviermeslin Jan 28, 2024
2932896
Complément
oliviermeslin Jan 28, 2024
3887d09
Déplacer la partie lazy eval
oliviermeslin Jan 28, 2024
927ccdd
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
deac887
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
4b051c3
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
2dc7e4d
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
23439fd
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
b783d58
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
6b4697e
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
a44f8fc
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
c9571bc
Update 03_Fiches_thematiques/Fiche_arrow.qmd
oliviermeslin Jan 31, 2024
9039091
Ajouter une intro dans un paragraphe [skip-ci]
oliviermeslin Jan 31, 2024
e2af7db
Améliorer un tableau
oliviermeslin Jan 31, 2024
f7411a4
Merge branch 'fiche_arrow_duckdb' of https://github.com/InseeFrLab/ut…
oliviermeslin Jan 31, 2024
d0ea264
Gras [skip-ci]
oliviermeslin Jan 31, 2024
6b01aad
Améliorer les tableaux
oliviermeslin Jan 31, 2024
4be20ef
Bullet points
oliviermeslin Jan 31, 2024
01b34af
Test
oliviermeslin Jan 31, 2024
a599764
Diverses bricoles
oliviermeslin Jan 31, 2024
2621546
Compléments
oliviermeslin Jan 31, 2024
36dbbda
Formulation
oliviermeslin Jan 31, 2024
6aa5f21
Précision [skip-ci]
oliviermeslin Jan 31, 2024
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Prev Previous commit
Next Next commit
Ajouter une intro dans un paragraphe [skip-ci]
oliviermeslin committed Jan 31, 2024
commit 90390919c27b3942c3c1785d09dafe82631b05b2
9 changes: 9 additions & 0 deletions 03_Fiches_thematiques/Fiche_arrow.qmd
Original file line number Diff line number Diff line change
@@ -219,6 +219,15 @@ On pourrait penser que, lorsqu'on exécute l'ensemble de ce traitement, `arrow`

## Comment bien utiliser `arrow`?

Au premier abord, on peut avoir l'impression qu'`arrow` s'utilise exactement comme `dplyr` (c'est d'ailleurs fait exprès!). Il y a toutefois quelques différences qui peuvent avoir un impact considérable sur les performances des traitements. Cette partie détaille trois recommandations à suivre pour bien utiliser `arrow`:

- Utiliser correctement l'évaluation différée;
- Utiliser `compute()` plutôt que `collect()`;
- Utiliser `open_dataset()` plutôt que `read_parquet()`.




### Savoir bien utiliser l'évaluation différée

La @sec-lazy a présenté la notion d'évaluation différée et son intérêt pour optimiser les performances. Toutefois, l'évaluation différée n'est pas toujours facile à utiliser, et présente des limites qu'il faut bien comprendre. Cette section décrit plus en détail le fonctionnement de l'évaluation différée et ses limites. Pour illustrer ce fonctionnement, on commence par exporter la base permanente des équipements sous la forme d'un dataset Arrow partitionné. La fiche [Importer des fichiers Parquet](#importparquet) décrit en détail ce qu'est un fichier Parquet partitionné et comment le manipuler.