Класичний RAG на векторних базах даних добре справляється з короткими фрагментами, але починає «плавати», коли документ займає сотні сторінок і контекст потрібно шукати між розділами. PageIndex — це новий підхід, який індексує документи посторінково і знаходить потрібну інформацію без жодного векторного вбудовування. У цій статті розберемо, як саме працює технологія, чим вона відрізняється від традиційного RAG і коли її варто застосовувати на практиці.
🔍 Що таке PageIndex і як він працює
PageIndex — це метод індексування та пошуку в документах, де одиницею роботи є сторінка, а не семантичний чанк. Замість того щоб розбивати текст на шматки по 512 токенів і перетворювати їх у вектори, PageIndex зберігає структуру документа як є — з номерами сторінок, заголовками, таблицями і перехресними посиланнями. Пошук відбувається через комбінацію BM25-алгоритму (класичний TF-IDF-пошук) і структурного аналізу документа: система знає, що пункт 3.2 посилається на додаток А, і може враховувати цей зв’язок під час генерації відповіді. У 2026 році реалізації PageIndex доступні як у вигляді відкритих бібліотек (наприклад, llama-index із модулем PageRetriever), так і у хмарних сервісах на кшталт Azure AI Document Intelligence та AWS Textract з RAG-пайплайнами. Ключова відмінність від vector RAG: система не «забуває» де саме в документі знаходиться інформація — вона завжди може повернути точний номер сторінки і процитувати оригінальний контекст.

⚡ Ключові функції та можливості PageIndex
PageIndex не просто замінює векторний пошук — він додає новий рівень контролю над тим, як модель «читає» документи. Особливо помітна різниця при роботі з PDF-звітами на 200+ сторінок, юридичними договорами з перехресними посиланнями або технічними специфікаціями зі складними таблицями. Нижче — чотири функції, які найбільше відрізняють цей підхід від класичного RAG.
- Посторінкова індексація — кожна сторінка зберігається як окремий об’єкт із метаданими (номер, розділ, ключові слова), що дозволяє поверненню точного посилання типу «стор. 47, розділ 4.3».
- Структурний граф документа — PageIndex будує карту зв’язків між розділами, виносками та додатками, тому відповідь може включати контекст із кількох непоруч розташованих сторінок одночасно.
- Гібридний скоринг BM25 + LLM-reranker — спочатку BM25 знаходить 20-30 кандидатних сторінок за ключовими словами, потім легка мовна модель ранжує їх за релевантністю, що скорочує час пошуку до 300–500 мс навіть у документах на 1000 сторінок.
- Цитування з верифікацією — кожна відповідь автоматично супроводжується номерами сторінок-джерел, а система може перевірити, чи справді цитата присутня на вказаній сторінці, зменшуючи галюцинації на 40–60% порівняно з чистим vector RAG.
📊 Порівняння підходів: PageIndex vs Vector RAG vs Повнотекстовий пошук
Вибір методу пошуку напряму впливає на якість відповідей і вартість інфраструктури. Нижче — практичне порівняння трьох підходів за ключовими параметрами, яке допоможе зрозуміти, для якого завдання підходить кожен із них.
| Параметр | PageIndex | Vector RAG (FAISS/Pinecone) | Повнотекстовий пошук (Elasticsearch) |
|---|---|---|---|
| Потреба у векторній БД | Ні | Так (обов’язково) | Ні |
| Точність цитувань | Висока (сторінка + розділ) | Середня (чанк без прив’язки) | Висока (позиція символу) |
| Робота з таблицями/схемами | Добра | Слабка | Середня |
| Вартість інфраструктури | Низька ($0–50/міс для MVP) | Висока ($200–800/міс) | Середня ($50–300/міс) |
| Швидкість індексації 500-стор. PDF | 2–5 хвилин | 10–20 хвилин | 1–3 хвилини |
| Семантичне розуміння | Середнє (через reranker) | Високе | Низьке |
✅ Переваги та недоліки PageIndex
Переваги:
- Відсутність векторної бази даних зменшує операційні витрати в 3–5 разів — не потрібно платити за embeddings API (наприклад, OpenAI text-embedding-3-large коштує $0.13 за 1M токенів, а для великого корпусу це накопичується швидко).
- Прозорість і верифікованість відповідей — користувач завжди бачить конкретні сторінки-джерела, що критично важливо для юридичних, медичних і фінансових застосувань.
- Стабільна робота зі структурованими документами — таблиці, нумеровані списки і перехресні посилання зберігають свою семантику, а не розбиваються на безглузді чанки по середині рядка.
- Просте оновлення індексу — при зміні документа достатньо переіндексувати лише змінені сторінки, а не перераховувати всі вектори.
Недоліки:
- Слабша семантична відповідність на розмитих запитах — якщо користувач пише «як це впливає на прибуток» без конкретних термінів, BM25 може не знайти потрібні сторінки, де слова «прибуток» немає, але є «EBITDA» і «маржа».
- Залежність від якості структури документа — сканований PDF без OCR або документ без чіткої ієрархії заголовків індексується значно гірше, що потребує попередньої обробки та додаткових інструментів.
💡 Як почати використовувати PageIndex: покроковий гайд
Нижче — практична інструкція для розгортання PageIndex-пайплайну з відкритими інструментами за 2026 рік. Для прикладу використовуємо llama-index (версія 0.11+) і Python 3.11.
Крок 1. Встановіть залежності. Виконайте pip install llama-index llama-index-readers-file rank-bm25. Для роботи з PDF додайте pypdf або pdfplumber — останній краще зберігає структуру таблиць.
Крок 2. Завантажте документ із збереженням сторінок. Використовуйте PDFReader(return_full_document=False) — це збереже кожну сторінку як окремий об’єкт Document із метаданням page_label.
Крок 3. Побудуйте PageIndex. Створіть індекс через SummaryIndex.from_documents(pages) або кастомний BM25Retriever. Збережіть індекс локально через index.storage_context.persist() — це файл розміром 5–50 МБ замість гігабайтної векторної БД.
Крок 4. Налаштуйте reranker. Підключіть SentenceTransformerRerank(model="cross-encoder/ms-marco-MiniLM-L-6-v2", top_n=5) — ця безкоштовна модель зменшить шум у результатах BM25 і покращить якість відповідей.
Крок 5. Запустіть запит і отримайте відповідь із цитуваннями. Використовуйте query_engine.query("ваш запит") і виведіть response.source_nodes — кожен вузол містить номер сторінки та релевантний уривок.

Крок 6. Протестуйте на крайніх випадках. Перевірте запити, де відповідь розподілена між кількома сторінками (наприклад, таблиця починається на стор. 12, а виноска до неї — на стор. 15). Якщо якість незадовільна, збільште параметр similarity_top_k із 3 до 8.
❓ Часті запитання (FAQ)
1. Чи може PageIndex повністю замінити векторний RAG?
Для документів із чіткою структурою і термінологічними запитами — так, у більшості випадків. Але якщо ваші запити переважно семантичні (наприклад, пошук за настроєм або концепцією) або ви працюєте з неструктурованим текстом, краще використовувати гібрид: PageIndex для навігації + векторний пошук для семантики.
2. Як PageIndex справляється зі сканованими PDF?
Сам по собі — погано, оскільки потребує текстового шару. Перед індексацією необхідно запустити OCR (наприклад, Tesseract або AWS Textract). Після якісного OCR точність PageIndex на сканованих документах досягає 85–90% від точності на нативних PDF.
3. Чи підходить PageIndex для багатомовних документів?
Так, BM25 працює з будь-якою мовою без додаткового налаштування — достатньо використати правильний токенізатор (наприклад, Tokenizer.from_pretrained("google-bert/bert-base-multilingual-cased")). Reranker теж доступний у багатомовних версіях.
4. Скільки коштує хмарне рішення PageIndex для бізнесу?
Azure AI Document Intelligence із RAG-пайплайном на 2026 рік коштує від $1.50 за 1000 сторінок аналізу + хостинг від $50/міс. Для самостійного розгортання на VPS (8 ГБ RAM) повний стек обходиться в $20–40/міс і справляється з корпусом до 50 000 сторінок.
5. Як виміряти, що PageIndex дає кращі результати ніж мій поточний RAG?
Використовуйте бенчмарк RAGAS із метриками context_recall і answer_correctness. Підготуйте тестовий набір із 50–100 запитань до вашого документа з еталонними відповідями і порівняйте обидва підходи кількісно — це займе 2–3 години, але дасть конкретні цифри.
🏁 Висновок
PageIndex — це практична альтернатива векторному RAG для тих, хто працює з великими структурованими документами і потребує точних, верифікованих відповідей із посиланнями на конкретні сторінки. Технологія не є срібною кулею, але в правильному контексті вона дає кращу якість при значно нижчих витратах на інфраструктуру. У 2026 році екосистема інструментів навколо PageIndex достатньо зріла для використання у продакшені.
Цей підхід насамперед підходить юридичним компаніям, фінансовим аналітикам, медичним установам і розробникам корпоративних чат-ботів, які обробляють звіти, договори та технічні специфікації. Якщо ваші документи мають чіткі розділи, таблиці та нумерацію сторінок — PageIndex дасть вам кращу точність і прозорість, ніж класичний chunk-based RAG, вже з першого тижня використання.
Почніть з малого: візьміть один реальний PDF із вашого робочого процесу, розгорніть локальний PageIndex за кроками з цього гайду і порівняйте результати з вашим поточним рішенням через RAGAS. Цього буде достатньо, щоб зрозуміти — чи варто переходити на цей підхід для всього корпусу документів.
РОЗСИЛКА
📬 Щотижневий AI-дайджест
Найкращі статті про ШІ та автоматизацію — без спаму, лише суть
Без спаму · Відписатись будь-коли

