(feat:connector) paginate files

2026-02-16 03:00:53 +00:00 · 2025-09-04 07:58:12 +05:30
parent c4a598f3d3
commit f7f6042579
6 changed files with 188 additions and 137 deletions
--- a/application/api/connector/routes.py
+++ b/application/api/connector/routes.py
@@ -1,5 +1,6 @@
 import datetime
 import json
+import logging


 from bson.objectid import ObjectId
@@ -338,15 +339,16 @@ class ConnectorRefresh(Resource):

@connectors_ns.route("/api/connectors/files")
 class ConnectorFiles(Resource):
-    @api.expect(api.model("ConnectorFilesModel", {"provider": fields.String(required=True), "session_token": fields.String(required=True), "folder_id": fields.String(required=False), "limit": fields.Integer(required=False)}))
-    @api.doc(description="List files from a connector provider")
+    @api.expect(api.model("ConnectorFilesModel", {"provider": fields.String(required=True), "session_token": fields.String(required=True), "folder_id": fields.String(required=False), "limit": fields.Integer(required=False), "page_token": fields.String(required=False)}))
+    @api.doc(description="List files from a connector provider (supports pagination)")
    def post(self):
        try:
            data = request.get_json()
            provider = data.get('provider')
            session_token = data.get('session_token')
            folder_id = data.get('folder_id')
-            limit = data.get('limit', 50)
+            limit = data.get('limit', 10)
+            page_token = data.get('page_token')
            if not provider or not session_token:
                return make_response(jsonify({"success": False, "error": "provider and session_token are required"}), 400)

@@ -364,21 +366,33 @@ class ConnectorFiles(Resource):
                'limit': limit,
                'list_only': True,
                'session_token': session_token,
-                'folder_id': folder_id
+                'folder_id': folder_id,
+                'page_token': page_token
            })

            files = []
            for doc in documents[:limit]:
                metadata = doc.extra_info
+                modified_time = metadata.get('modified_time')
+                if modified_time:
+                    date_part = modified_time.split('T')[0]
+                    time_part = modified_time.split('T')[1].split('.')[0].split('Z')[0]
+                    formatted_time = f"{date_part} {time_part}"
+                else:
+                    formatted_time = None
+
                files.append({
                    'id': doc.doc_id,
                    'name': metadata.get('file_name', 'Unknown File'),
                    'type': metadata.get('mime_type', 'unknown'),
-                    'size': metadata.get('size', 'Unknown'),
-                    'modifiedTime': metadata.get('modified_time', 'Unknown')
+                    'size': metadata.get('size', None),
+                    'modifiedTime': formatted_time
                })

-            return make_response(jsonify({"success": True, "files": files, "total": len(files)}), 200)
+            next_token = getattr(loader, 'next_page_token', None)
+            has_more = bool(next_token)
+
+            return make_response(jsonify({"success": True, "files": files, "total": len(files), "next_page_token": next_token, "has_more": has_more}), 200)
        except Exception as e:
            current_app.logger.error(f"Error loading connector files: {e}")
            return make_response(jsonify({"success": False, "error": f"Failed to load files: {str(e)}"}), 500)
--- a/application/parser/connectors/google_drive/loader.py
+++ b/application/parser/connectors/google_drive/loader.py
@@ -57,6 +57,8 @@ class GoogleDriveLoader(BaseConnectorLoader):
            logging.warning(f"Could not build Google Drive service: {e}")
            self.service = None

+        self.next_page_token = None
+


    def _process_file(self, file_metadata: Dict[str, Any], load_content: bool = True) -> Optional[Document]:
@@ -74,7 +76,7 @@ class GoogleDriveLoader(BaseConnectorLoader):
            doc_metadata = {
                'file_name': file_name,
                'mime_type': mime_type,
-                'size': file_metadata.get('size', 'Unknown'),
+                'size': file_metadata.get('size', None),
                'created_time': file_metadata.get('createdTime'),
                'modified_time': file_metadata.get('modifiedTime'),
                'parents': file_metadata.get('parents', []),
@@ -117,6 +119,8 @@ class GoogleDriveLoader(BaseConnectorLoader):
            limit = inputs.get('limit', 100)
            list_only = inputs.get('list_only', False)
            load_content = not list_only
+            page_token = inputs.get('page_token')
+            self.next_page_token = None

            if file_ids:
                # Specific files requested: load them
@@ -137,7 +141,7 @@ class GoogleDriveLoader(BaseConnectorLoader):
            else:
                # Browsing mode: list immediate children of provided folder or root
                parent_id = folder_id if folder_id else 'root'
-                documents = self._list_items_in_parent(parent_id, limit=limit, load_content=load_content)
+                documents = self._list_items_in_parent(parent_id, limit=limit, load_content=load_content, page_token=page_token)

            logging.info(f"Loaded {len(documents)} documents from Google Drive")
            return documents
@@ -180,14 +184,14 @@ class GoogleDriveLoader(BaseConnectorLoader):
            return None


-    def _list_items_in_parent(self, parent_id: str, limit: int = 100, load_content: bool = False) -> List[Document]:
+    def _list_items_in_parent(self, parent_id: str, limit: int = 100, load_content: bool = False, page_token: Optional[str] = None) -> List[Document]:
        self._ensure_service()

        documents: List[Document] = []

        try:
            query = f"'{parent_id}' in parents and trashed=false"
-            page_token = None
+            next_token_out: Optional[str] = None

            while True:
                page_size = 100
@@ -211,7 +215,7 @@ class GoogleDriveLoader(BaseConnectorLoader):
                        doc_metadata = {
                            'file_name': item.get('name', 'Unknown'),
                            'mime_type': mime_type,
-                            'size': item.get('size', 'Unknown'),
+                            'size': item.get('size', None),
                            'created_time': item.get('createdTime'),
                            'modified_time': item.get('modifiedTime'),
                            'parents': item.get('parents', []),
@@ -225,12 +229,15 @@ class GoogleDriveLoader(BaseConnectorLoader):
                            documents.append(doc)

                    if limit and len(documents) >= limit:
+                        self.next_page_token = results.get('nextPageToken')
                        return documents

                page_token = results.get('nextPageToken')
+                next_token_out = page_token
                if not page_token:
                    break

+            self.next_page_token = next_token_out
            return documents
        except Exception as e:
            logging.error(f"Error listing items under parent {parent_id}: {e}")