Unstructured-IO · MthwRobinson · Jun 19, 2024 · Jun 19, 2024 · Jun 19, 2024 · Jun 19, 2024
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,4 +1,4 @@
-## 0.14.7-dev4
+## 0.14.7-dev5
 
 ### Enhancements
 
@@ -12,6 +12,7 @@
 ### Fixes
 
 * **Fix an error publishing docker images.** Update user in docker-smoke-test to reflect changes made by the amd64 image pull from the "unstructured" "wolfi-base" image.
+* **Fix a IndexError when partitioning a pdf with values for both `extract_image_block_types` and `starting_page_number`.
 
 ## 0.14.6
 

diff --git a/test_unstructured/partition/pdf_image/test_pdf.py b/test_unstructured/partition/pdf_image/test_pdf.py
@@ -1223,6 +1223,8 @@ def test_partition_pdf_element_extraction(
         if file_mode == "filename":
             elements = pdf.partition_pdf(
                 filename=filename,
+                # Image extraction shouldn't break by setting this
+                starting_page_number=20,
                 extract_image_block_types=extract_image_block_types,
                 extract_image_block_to_payload=extract_image_block_to_payload,
                 extract_image_block_output_dir=tmpdir,

diff --git a/unstructured/__version__.py b/unstructured/__version__.py
@@ -1 +1 @@
-__version__ = "0.14.7-dev4"  # pragma: no cover
+__version__ = "0.14.7-dev5"  # pragma: no cover
diff --git a/unstructured/partition/pdf.py b/unstructured/partition/pdf.py
@@ -660,6 +660,7 @@ def _partition_pdf_or_image_local(
     if extract_images_in_pdf:
         save_elements(
             elements=elements,
+            starting_page_number=starting_page_number,
             element_category_to_save=ElementType.IMAGE,
             filename=filename,
             file=file,
@@ -675,6 +676,7 @@ def _partition_pdf_or_image_local(
 
         save_elements(
             elements=elements,
+            starting_page_number=starting_page_number,
             element_category_to_save=el_type,
             filename=filename,
             file=file,

diff --git a/unstructured/partition/pdf_image/pdf_image_utils.py b/unstructured/partition/pdf_image/pdf_image_utils.py
@@ -121,6 +121,7 @@ def pad_bbox(
 
 def save_elements(
     elements: List["Element"],
+    starting_page_number: int,
     element_category_to_save: str,
     pdf_image_dpi: int,
     filename: str = "",
@@ -183,16 +184,21 @@ def save_elements(
             padded_bbox = cast(
                 Tuple[int, int, int, int], pad_bbox((x1, y1, x2, y2), (h_padding, v_padding))
             )
-            page_number = el.metadata.page_number
+
+            # The page number in the metadata may have been offset
+            # by starting_page_number. Make sure we use the right
+            # value for indexing!
+            metadata_page_number = el.metadata.page_number
+            page_index = metadata_page_number - starting_page_number
 
             figure_number += 1
             try:
                 basename = "table" if el.category == ElementType.TABLE else "figure"
                 output_f_path = os.path.join(
                     output_dir_path,
-                    f"{basename}-{page_number}-{figure_number}.jpg",
+                    f"{basename}-{metadata_page_number}-{figure_number}.jpg",
                 )
-                image_path = image_paths[page_number - 1]
+                image_path = image_paths[page_index]
                 image = Image.open(image_path)
                 cropped_image = image.crop(padded_bbox)
                 if extract_image_block_to_payload:
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		__version__ = "0.14.7-dev4" # pragma: no cover
		__version__ = "0.14.7-dev5" # pragma: no cover