added image extraction code to pdf ingest for testing

UIUC-Chatbot · Nov 20, 2023 · 48e968f · 48e968f
1 parent 98bbdc9
commit 48e968f
Showing 1 changed file with 9 additions and 1 deletion.
diff --git a/ai_ta_backend/vector_database.py b/ai_ta_backend/vector_database.py
@@ -477,14 +477,22 @@ def _ingest_single_pdf(self, s3_path: str, course_name: str, **kwargs):
         self.s3_client.download_fileobj(Bucket=os.getenv('S3_BUCKET_NAME'), Key=s3_path, Fileobj=pdf_tmpfile)
         ### READ OCR of PDF
         doc = fitz.open(pdf_tmpfile.name)  # type: ignore
-
+        
         # improve quality of the image
         zoom_x = 2.0  # horizontal zoom
         zoom_y = 2.0  # vertical zoom
         mat = fitz.Matrix(zoom_x, zoom_y)  # zoom factor 2 in each dimension
 
         pdf_pages_OCRed: List[Dict] = []
         for i, page in enumerate(doc):  # type: ignore
+          # image extraction 
+          print("extracting image")
+          d = page.get_text("dict")
+          blocks = d['blocks']
+          img_blocks = [b for b in blocks if b['type']==1]
+          print(img_blocks[0])
+          exit()
+
 
           # UPLOAD FIRST PAGE IMAGE to S3
           if i == 0: