-
Notifications
You must be signed in to change notification settings - Fork 771
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
* added the italian translation for unit 1 chapter5 Co-authored-by: Leandro von Werra <[email protected]>
- Loading branch information
1 parent
b4b2316
commit 0ef247f
Showing
9 changed files
with
2,468 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,17 @@ | ||
# Introduzione | ||
|
||
Nel [Capitolo 3](/course/chapter3) hai mosso i primi passi nella libreria 🤗 Datasets, e hai scoperto i tre passaggi fondamentali nell'ottimizzazione dei modelli: | ||
|
||
1. Si carica un dataset dell'Hub Hugging Face. | ||
2. Si processano i dati con `Dataset.map()`. | ||
3. Si caricano e si elaborano le metriche. | ||
|
||
Ma questo non è che un assaggio di ciò che 🤗 Datasets è in grado di fare! In questo capitolo approfondiremo le potenzialità della libreria. Durante questo percorso, troverai risposta alle seguenti domande: | ||
|
||
* Cosa fare quando un dataset non è presente nell'Hub? | ||
* Come fare a tagliuzzare il dataset? (E cosa succede se devi _proprio_ usare Pandas?) | ||
* Cosa fare quando un dataset è tanto grande da sciogliere la RAM del tuo portatile? | ||
* Cosa cavolo sono il "mappamento di memoria" e Apache Arrow? | ||
* Come fare per creare il proprio dataset e pubblicarlo sull'Hub? | ||
|
||
Le tecniche che imparerai ti prepareranno a compiti più avanzati di tokenizzazione e fine-tuning che troverai nei capitoli [Chapter 6](/course/chapter6) e [Chapter 7](/course/chapter7) -- quindi preparati una tazza di caffè e iniziamo! |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,167 @@ | ||
# E se il mio dataset non è sull'Hub? | ||
|
||
<DocNotebookDropdown | ||
classNames="absolute z-10 right-0 top-0" | ||
options={[ | ||
{label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"}, | ||
{label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"}, | ||
]} /> | ||
|
||
Sai come usare l'[Hub Hugging Face](https://huggingface.co/datasets) per scaricare i dataset, ma spessa dovrai lavorare con dati che si trovano sul tuo computer, o so un server remoto. In questa sezione vederemo come usare 🤗 Datasets per caricare dataset che non sono disponibile nell'Hub Hugging Face. | ||
|
||
<Youtube id="HyQgpJTkRdE"/> | ||
|
||
## Lavorare con dataset locali e in remoto | ||
|
||
🤗 Datasets mette a tua disposizione diversi script per caricare dataset in locale e in remoto. Sono supportati diversi formati di dati, tra cui: | ||
|
||
| Formato dati | Script | Esempio | | ||
| :----------------: | :------------: | :-----------------------------------------------------: | | ||
| CSV & TSV | `csv` | `load_dataset("csv", data_files="my_file.csv")` | | ||
| File di testo | `text` | `load_dataset("text", data_files="my_file.txt")` | | ||
| JSON & JSON Lines | `json` | `load_dataset("json", data_files="my_file.jsonl")` | | ||
| DataFrame serializzati in Pickle | `pandas` | `load_dataset("pandas", data_files="my_dataframe.pkl")` | | ||
|
||
Come mostrato nella tabella, per ogni formato di dati abbiamo bisogno di specificare, all'interno della funzione `load_dataset()`, il tipo di script da utilizzare, assieme a `data_files`, che specifica il percorso verso uno o più file. Iniziamo a caricare un dataset proveniente da file locali; più tardi vederemo come fare la stessa cosa con file in remoto. | ||
|
||
## Caricare un dataset locale | ||
|
||
Per questo esempio useremo il [dataset SQuAD-it](https://github.com/crux82/squad-it/), un ampio dataset per il question answering in italiano | ||
|
||
Le sezioni di addestramento e di test si trovano su GitHub, quindi possiamo scaricarle con un semplice comando `wget`: | ||
|
||
```python | ||
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz | ||
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz | ||
``` | ||
|
||
Questo scaricherà due file compressi chiamati *SQuAD_it-train.json.gz* e *SQuAD_it-test.json.gz*, che possiamo decomprimere con il comandi Linux `gzip`: | ||
|
||
```python | ||
!gzip -dkv SQuAD_it-*.json.gz | ||
``` | ||
|
||
```bash | ||
SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json | ||
SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json | ||
``` | ||
|
||
Vediamo che i dati compressi sono stati sostituiti da _SQuAD_it-train.json_ e _SQuAD_it-text.json_, e che i dati sono archiviati in formato JSON. | ||
|
||
<Tip> | ||
|
||
✎ Se ti stai chiedendo perché c'è un `!` nei comandi di shell precedenti, è perché li stiamo eseguendo da un notebook Jupyter. Se vuoi scaricare e decomprimere i dataset da un terminale, non devi fare altro che rimuovere il prefisso. | ||
|
||
</Tip> | ||
|
||
Per caricare un file JSON con la funzione `load_dataset()`, ci serve solo sapere se abbiamo a che fare con un normale JSON (simile a un dizionario annidato) o con un JSON Lines (JSON separato da righe). Come molti dataset per il question asnwring, SQuAD-it usa il formato annidato, con tutto il testo immagazzinato nel campo `data`. Questo significa che possiamo caricare il dataset specificando l'argomento `field` come segue: | ||
|
||
```py | ||
from datasets import load_dataset | ||
|
||
squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data") | ||
``` | ||
|
||
Di default, caricare file locali create un oggetto `DatasetDict` con una sezione `train`. Possiamo vederlo ispezionando l'oggetto `squad_it_dataset`: | ||
|
||
```py | ||
squad_it_dataset | ||
``` | ||
|
||
```python out | ||
DatasetDict({ | ||
train: Dataset({ | ||
features: ['title', 'paragraphs'], | ||
num_rows: 442 | ||
}) | ||
}) | ||
``` | ||
|
||
Questo ci mostra il numero di righe e i nomi delle colonne associate con il set di addestraento. Possiamo vedere uno degli esempi indicizzando la sezione `train`, come segue: | ||
|
||
```py | ||
squad_it_dataset["train"][0] | ||
``` | ||
|
||
```python out | ||
{ | ||
"title": "Terremoto del Sichuan del 2008", | ||
"paragraphs": [ | ||
{ | ||
"context": "Il terremoto del Sichuan del 2008 o il terremoto...", | ||
"qas": [ | ||
{ | ||
"answers": [{"answer_start": 29, "text": "2008"}], | ||
"id": "56cdca7862d2951400fa6826", | ||
"question": "In quale anno si è verificato il terremoto nel Sichuan?", | ||
}, | ||
... | ||
], | ||
}, | ||
... | ||
], | ||
} | ||
``` | ||
|
||
Benissimo, abbiamo caricare il nostro primo dataset locale! Ma anche se questo ha funzionato per la sezione di addestramento, vogliamo includere entrambe le sezioni `train` e `test` in un unico oggetto `DatasetDict` così da poter applicare le funzioni `Dataset.map()` su entrambi i dataset simultaneamente. Per fare questo, possiamo dare un dizionaro all'argomento `data_files`, per mappare ogni sezione a un file associato con quella sezione: | ||
|
||
```py | ||
data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"} | ||
squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | ||
squad_it_dataset | ||
``` | ||
|
||
```python out | ||
DatasetDict({ | ||
train: Dataset({ | ||
features: ['title', 'paragraphs'], | ||
num_rows: 442 | ||
}) | ||
test: Dataset({ | ||
features: ['title', 'paragraphs'], | ||
num_rows: 48 | ||
}) | ||
}) | ||
``` | ||
|
||
Questo è proprio ciò che volevamo. Ora possiamo applicare diverse tecniche di preprocessamento per pulire i dati, tokenizzare le revisioni, e altro. | ||
|
||
<Tip> | ||
|
||
L'argomento `data_files` della funzione `load_dataset()` è molto flessibile, e può essere usato con un percorso file singolo, con una lista di percorsi file, o un dizionario che mappa i nomi delle sezioni ai percorsi file. È anche possibile usare comandi glob per recuperare tutti i file che soddisfano uno specifico pattern secondo le regole dello shell di Unix (ad esempio, è possibile recuperare tutti i file JSON presenti in una cartella usando il pattern `data_files="*.json"`). Consulta la [documentazione](https://huggingface.co/docs/datasets/loading.html#local-and-remote-files) 🤗 Datasets per maggiori informazioni. | ||
|
||
</Tip> | ||
|
||
Gli script presenti in 🤗 Datasets supportano la decompressione atuomatica dei file in input, quindi possiamo saltare l'uso di `gzip` puntando `data_files` direttamente ai file compressi: | ||
|
||
```py | ||
data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"} | ||
squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | ||
``` | ||
|
||
Questo può essere utile se non vuoi decomprimere manualmente molti file GZIP. La decompressione automatica si applica inoltre ad altri formati comuni, come ZIP e TAR, basta solo puntare `data_files` ai file compressi ed è fatta! | ||
|
||
Ora che sai come caricare i file locali dal tuo computer, guardiamo come caricare i file remoti. | ||
|
||
## Caricare un dataset in remoto | ||
|
||
Se lavori come data scientist o come programmatore per un'azienda, ci sono buone probabilità che i dataset da analizzare sono archiaviati su un qualche server in remoto. Per fortuna, caricare file remoti è semplice come caricare quelli locali! Invece di dare un percorso a file locali, puntiamo l'argomento `data_files` di `load_dataset()` a uno o più URL dove si trovano i file in remoto. Ad esempio, per il dataset SQuAD-it presente su GitHub, possiamo puntare `data_files` agli URL _SQuAD_it-*.json.gz_ come segue: | ||
|
||
```py | ||
url = "https://github.com/crux82/squad-it/raw/master/" | ||
data_files = { | ||
"train": url + "SQuAD_it-train.json.gz", | ||
"test": url + "SQuAD_it-test.json.gz", | ||
} | ||
squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | ||
``` | ||
|
||
Questo codice restituisce lo stesso oggetto `DatasetDict` visto in precedenza, ma ci risparmia il passaggio manuale di scaricare e decomprimere i file _SQuAD_it-*.json.gz_. Questo conclude la nostra incursione nei diversi modi di caricare dataset che non sono presenti nell'Hub Hugging Face. Ora che abbiamo un dataset con cui giocare, sporchiamoci le mani con diverse tecniche di data-wrangling! | ||
|
||
<Tip> | ||
|
||
✏️ **Prova tu!** Scegli un altro dataset presente su GitHub o sulla [Repository di Machine Learning UCI](https://archive.ics.uci.edu/ml/index.php) e cerca di caricare sia in locale che in remoto usando le tecniche introdotte in precedenza. Per punti extra, prova a caricare un dataset archiviato in formato CSV o testuale (vedi la [documentazione](https://huggingface.co/docs/datasets/loading.html#local-and-remote-files) per ulteriori informazioni su questi formati). | ||
|
||
</Tip> | ||
|
||
|
Oops, something went wrong.