Name		Name	Last commit message	Last commit date
parent directory ..
Multimodal_dataloader.ipynb		Multimodal_dataloader.ipynb
Multimodal_ingest_RAG_notebook.ipynb		Multimodal_ingest_RAG_notebook.ipynb
README.md		README.md
Ready_to_use_foundational_pipelines.ipynb		Ready_to_use_foundational_pipelines.ipynb

README.md

Data Ingestion Pipeline

Load text files(pdf, doc, etc..) , transform, chunk and upload to the Clarifai Platform

Features

File Partitioning
Cleaning Chunks
Metadata Extraction

Setup

To use Data Ingestion Pipeline, please run

pip install -r requirements-dev.txt

Notebooks

Quick Usage

from clarifai_datautils.text import Pipeline, PDFPartition
from clarifai_datautils.text.pipeline.cleaners import Clean_extra_whitespace

# Define the pipeline
pipeline = Pipeline(
    name='pipeline-1',
    transformations=[
        PDFPartition(chunking_strategy = "by_title",max_characters = 1024),
        Clean_extra_whitespace()
    ]
)


# Using SDK to upload
from clarifai.client import Dataset
dataset = Dataset(dataset_url)
dataset.upload_dataset(pipeline.run(files = file_path, loader = True))

Supported File Formats

PDF
Text(.txt)
Docx
Markdown

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ingestion pipelines

Ingestion pipelines

README.md

Data Ingestion Pipeline

Features

Setup

Notebooks

Quick Usage

Supported File Formats

Files

Ingestion pipelines

Directory actions

More options

Directory actions

More options

Latest commit

History

Ingestion pipelines

Folders and files

parent directory

README.md

Data Ingestion Pipeline

Features

Setup

Notebooks

Quick Usage

Supported File Formats