Optimize/ruby 2.7/rows with headers #2

baptistejub · 2021-01-29T01:17:55Z

Pour garder une trace un peu plus claire des changements amenés par ce fork.

À l'origine une grosse passe d'optimisation du parsing par @jpbougie (https://github.com/demarque/creek/tree/optimize-parse-speed) qui a remplacé le parsing DOM par un parsing "Sax" (classe Reader de Nokogiri qui est une interface de Sax).

Par la suite, présentés ici, quelques ajustements :

Merge d'un fix sur l'interprétation des dates
Mise à jour d'un appel à BigDecimal pour le passage à ruby 2.7
Un autre fix sur l'interprétation des dates : plutôt que Time, on utilise DateTime qui permet d'avoir un temps en UTC directement (Time va utiliser le fuseau du serveur).
Ajout d'une option au parsing des headers pour avoir une représentation des rows sous forme de hash { header => value } (un peu comme CSV qui a aussi une option headers), pour un accès un peu plus facile aux valeurs pour l'appelant.
4.1. Une possibilité similaire a aussi été ajoutée au repo officiel, mais ici c'est une implémentation maison qui marche avec le travail d'optimisation déjà fait.
4.2. Au départ une option pensée pour être utilisée dans Tally.
4.3. Performance : jusqu'à 25 % plus lent que la version "array simple" (testé sur un énorme Excel de 188 Mo : de 700 à 860 secondes); consommation de RAM similaire.
4.4. Les headers sont parsés en faisant une première lecture partielle du fichier, jusqu'à la ligne des headers. L'accès aux rows reparse le fichier de 0. Je pense que c'est acceptable côté performance.
Un peu plus de documentation dans le README à propos de l'option présentée ci-dessus.

* Always return a Time object for DateTime cells * Fix specs for DateTime parsing

…ad of array of values) Fix datetime conversion

lib/creek/sheet.rb

jpbougie · 2021-02-03T15:28:22Z

lib/creek/sheet.rb

+      @header_row_number = row_number.to_s
+
+      rows_with_meta_data.each do |row|
+        return (@headers = row['cells'].any? && row['cells']) if @header_row_number == row['r']


Hmm cette méthode pourrait donc retourner false? Ça serait à ajuster dans la documentation

Co-authored-by: Jean-Philippe Bougie <[email protected]>

demimismo and others added 3 commits October 29, 2020 14:06

Fix inconsistent DateTime conversion (pythonicrubyist#65)

ad37a4c

* Always return a Time object for DateTime cells * Fix specs for DateTime parsing

Ruby 2.7 updates

78dc0a8

Add option to include headers in rows (hash { header => value } inste…

571b03d

…ad of array of values) Fix datetime conversion

jpbougie reviewed Feb 3, 2021

View reviewed changes

baptistejub and others added 2 commits February 3, 2021 20:08

Typo in comment

63e1e87

Co-authored-by: Jean-Philippe Bougie <[email protected]>

Return nil for empty header row and comment about it

2df0935

jpbougie approved these changes Feb 5, 2021

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize/ruby 2.7/rows with headers #2

Optimize/ruby 2.7/rows with headers #2

baptistejub commented Jan 29, 2021

jpbougie Feb 3, 2021

Optimize/ruby 2.7/rows with headers #2

Are you sure you want to change the base?

Optimize/ruby 2.7/rows with headers #2

Conversation

baptistejub commented Jan 29, 2021

jpbougie Feb 3, 2021

Choose a reason for hiding this comment