diff --git a/chapters/pt/_toctree.yml b/chapters/pt/_toctree.yml index 0bb7da9f9..168333305 100644 --- a/chapters/pt/_toctree.yml +++ b/chapters/pt/_toctree.yml @@ -62,6 +62,9 @@ title: Busca semântica com o FAISS - local: chapter5/7 title: Confira o 🤗 Datasets! + - local: chapter5/8 + title: Questionário de fim de capítulo + quiz: 5 - title: 7. Principais tarefas NLP sections: diff --git a/chapters/pt/chapter5/8.mdx b/chapters/pt/chapter5/8.mdx new file mode 100644 index 000000000..152c191e5 --- /dev/null +++ b/chapters/pt/chapter5/8.mdx @@ -0,0 +1,223 @@ + + +# Questionário de fim de capítulo +Este capítulo cobriu muita coisa! Não se preocupe se você não entendeu todos os detalhes; os próximos capítulos o ajudarão a entender como as coisas funcionam. + +Antes de prosseguir, vamos testar o que você aprendeu neste capítulo. + +### 1. A função `load_dataset()` em 🤗 Datasets permite carregar um dataset de qual dos seguintes locais? + +data_files de load_dataset() para carregar conjuntos de dados localmente.", + correct: true + }, + { + text: "Do Hugging Face Hub", + explain: "Correto! Você pode carregar conjuntos de dados no Hub fornecendo o ID do conjunto de dados, por exemplo, load_dataset('emotion').", + correct: true + }, + { + text: "De um servidor remoto", + explain: "Correto! Você pode passar URLs para o argumento data_files de load_dataset() para carregar arquivos remotos.", + correct: true + }, + ]} +/> +### 2. Suponha que você carregue uma das tarefas GLUE da seguinte forma: + +```py +from datasets import load_dataset + +dataset = load_dataset("glue", "mrpc", split="train") +``` + +Qual dos seguintes comandos produzirá uma amostra aleatória de 50 elementos do `conjunto de dados`? + +dataset.sample(50)", + explain: "Isso está incorreto -- não há método Dataset.sample()." + }, + { + text: "dataset.shuffle().select(range(50))", + explain: "Correto! Como você viu neste capítulo, você primeiro embaralha o conjunto de dados e depois seleciona as amostras dele.", + correct: true + }, + { + text: "dataset.select(range(50)).shuffle()", + explain: "Isso está incorreto - embora o código seja executado, ele embaralha apenas os primeiros 50 elementos do conjunto de dados." + } + ]} +/> + +### 3. Suponha que você tenha um conjunto de dados sobre animais domésticos chamado `pets_dataset`, que tem uma coluna `name` que denota o nome de cada animal. Qual das seguintes abordagens permitiria filtrar o conjunto de dados para todos os animais de estimação cujos nomes começam com a letra "L"? + +pets_dataset.filter(lambda x : x['name'].startswith('L'))", + explain: "Correto! Usar uma função lambda do Python para esses filtros rápidos é uma ótima ideia. Você consegue pensar em outra solução?", + correct: true + }, + { + text: "pets_dataset.filter(lambda x['name'].startswith('L'))", + explain: "Isso está incorreto -- uma função lambda assume a forma geral lambda *arguments* : *expression*, então você precisa fornecer argumentos neste caso." + }, + { + text: "Criar uma função assim def filter_names(x): return x['name'].startswith('L') e executa-la pets_dataset.filter(filter_names).", + explain: "Correto! Assim como com Dataset.map(), você pode passar funções explícitas para Dataset.filter(). Isso é útil quando você tem alguma lógica complexa que não é adequado para uma função lambda curta. Qual das outras soluções funcionaria?", + correct: true + } + ]} +/> + +### 4. O que é mapeamento de memória? + + + +### 5. Quais dos seguintes são os principais benefícios do mapeamento de memória? + + + +### 6. Por que o código a seguir falha? + +```py +from datasets import load_dataset + +dataset = load_dataset("allocine", streaming=True, split="train") +dataset[0] +``` + +IterableDataset.", + explain: "Correto! Um IterableDataset é um gerador, não um contêiner, então você deve acessar seus elementos usando next(iter(dataset)).", + correct: true + }, + { + text: "O conjunto de dados allocine não tem uma divisão train.", + explain: "Isso está incorreto - confira o cartão de conjunto de dados [allocine](https://huggingface.co/datasets/allocine) no Hub para ver quais divisões ele contém." + } + ]} +/> + +### 7. Quais dos seguintes são os principais benefícios de criar um cartão de conjunto de dados? + + + +### 8. O que é pesquisa semântica? + + + +### 9. Para pesquisa semântica assimétrica, você geralmente tem: + + + +### 10. Posso usar 🤗 Datasets para carregar dados para uso em outros domínios, como processamento de fala (audios)? + +conjunto de dados MNIST no Hub para um exemplo de visão computacional." + }, + { + text: "Sim", + explain: "Correto! Confira os desenvolvimentos interessantes com fala e visão na biblioteca 🤗 Transformers para ver como 🤗 Datasets é usado nesses domínios.", + correct : true + }, + ]} +/>