Як зробити RAG систему для своїх документів без коду

Покроковий гайд зі створення RAG-системи для власних документів без написання коду

Якщо ти хочеш, щоб ChatGPT або інший ШІ відповідав на питання саме по твоїх документах — договорах, інструкціях, базах знань — і при цьому не плутав факти, тобі потрібна RAG система (Retrieval-Augmented Generation). Це технологія, яка дає можливість ШІ “читати” твої файли перед відповіддю і спиратися на реальні дані, а не вигадувати. Зібрати таку систему без жодного рядка коду можна за 30–60 хвилин. Все, що потрібно — акаунт у сервісі та набір документів у форматі PDF, DOCX або TXT.

🛠️ Що знадобиться

  • Dify.ai — головна платформа для побудови RAG без коду. Є безкоштовний план із достатнім лімітом для старту та особистих проєктів.
  • OpenAI API ключ або Gemini API ключ — щоб підключити мовну модель, яка генеруватиме відповіді. OpenAI дає $5 кредитів при реєстрації, Gemini має безкоштовний tier.
  • Твої документи — PDF, DOCX, TXT або Markdown файли з інформацією, по якій хочеш задавати питання. Мінімум 1 файл, оптимально — 5–20.
  • Браузер Chrome або Firefox — Dify найкраще працює саме в них, мобільна версія має обмежений функціонал.

📋 Покрокова інструкція

Крок 1: Реєстрація та вхід у Dify.ai

Перейди на сайт dify.ai і натисни кнопку Get Started Free у правому верхньому куті. Зареєструйся через Google акаунт — це найшвидший варіант, займає 20 секунд. Після входу ти потрапиш у головний дашборд. Зліва побачиш навігаційне меню: Studio, Knowledge, Tools, Plugins — тобі спочатку потрібен розділ Knowledge (База знань). Саме тут зберігаються всі твої документи, які ШІ буде “читати”.

Крок 2: Підключення API ключа мовної моделі

Перш ніж завантажувати документи, підключи мовну модель. Натисни на іконку свого профілю у правому верхньому куті → вибери Settings → зліва клікни Model Provider. У списку провайдерів знайди OpenAI, натисни Setup, встав свій API ключ у поле та натисни Save. Якщо використовуєш Gemini — обери Google у тому ж списку та встав ключ з Google AI Studio. Підводний камінь: якщо ключ не зберігається — перевір, чи немає пробілів на початку або в кінці рядка при вставці.

Крок 3: Створення бази знань та завантаження документів

Перейди в розділ Knowledge у лівому меню та натисни синю кнопку Create Knowledge у правому верхньому куті. Введи назву бази, наприклад “Мої договори” або “Інструкції для команди”, та натисни Create. Далі натисни Add File або перетягни файли прямо у вікно — підтримуються PDF, DOCX, TXT, MD, HTML. Обери свої документи та натисни Next. Ти побачиш екран налаштування індексації: у блоці Indexing Method обери High Quality — це використовує embedding модель для кращого пошуку по тексту. У Retrieval Setting залиш Vector Search за замовчуванням. Натисни Save & Process і почекай 1–3 хвилини поки документи обробляться.

Крок 4: Створення чат-застосунку з підключеною базою знань

Перейди у розділ Studio у лівому меню та натисни Create App. Обери тип Chatbot → введи назву застосунку, наприклад “Асистент по документах” → натисни Create. Ти потрапиш у редактор. У блоці Instructions напиши системний промпт — наприклад: “Ти помічник, який відповідає виключно на основі наданих документів. Якщо інформації немає у документах — так і скажи, не вигадуй.” У правій частині екрана знайди блок Context і натисни Add → у списку обери базу знань, яку щойно створив → натисни Add. Тепер ШІ знає, де шукати відповіді.

Крок 5: Тестування та публікація застосунку

У правій частині редактора є чат-вікно для тестування. Напиши питання, яке стосується твоїх документів — наприклад, “Які умови розірвання договору?” або “Що написано про відповідальність сторін?”. Якщо відповідь коректна і посилається на реальний текст із документів — все налаштовано правильно. Щоб побачити, які саме уривки тексту були використані, натисни на іконку цитати праворуч від відповіді ШІ — там будуть точні витяги з твоїх файлів. Коли задоволений результатом, натисни кнопку Publish угорі → потім Run App — отримаєш посилання на готовий чат-інтерфейс, яким можна поділитися з командою або вставити на сайт через Embed код.

⚠️ Типові помилки та як їх уникнути

  • Завантаження відсканованих PDF без OCR — якщо твій PDF це просто фото сторінок, Dify не зможе прочитати текст. Перед завантаженням пропусти файл через безкоштовний OCR сервіс Adobe Acrobat Online або ILovePDF → конвертуй у текстовий PDF.
  • Дуже великий розмір одного документа — файли понад 15 МБ або понад 100 сторінок часто зависають на обробці. Розбий великий документ на логічні частини по 20–30 сторінок за допомогою PDF24 або SmallPDF.
  • Не вибрано базу знань у застосунку — найпоширеніша помилка: база знань створена, але не підключена до чатбота. Обов’язково перевір блок Context у редакторі застосунку — там має бути назва твоєї бази.
  • Занадто загальні питання — якщо питати “Розкажи про договір” без конкретики, пошук по базі знань поверне нерелевантні уривки. Питай конкретно: “Який термін дії договору згідно розділу 4?”

💡 Поради для кращого результату

Додавай метадані до документів перед завантаженням. Перейменуй файли зрозуміло — “Договір_постачання_2025.pdf” замість “doc_final_v3.pdf”. Dify враховує назви файлів при пошуку, і це реально покращує точність відповідей.

Налаштуй кількість уривків, які витягує RAG. У розділі Knowledge → твоя база → Settings знайди параметр Top K і встанови значення 4–6 замість дефолтного 3. Це дозволить ШІ бачити більше контексту перед відповіддю і давати повніші відповіді на складні питання.

Використовуй окремі бази знань для різних тематик. Не змішуй юридичні договори, HR-документи та технічні інструкції в одну базу — це знижує точність пошуку. Краще створи 3 окремі бази і підключи до одного застосунку всі три одночасно через блок Context.

Перевіряй цитати після кожної відповіді. Клікай на іконку джерел під відповіддю — якщо ШІ посилається не на той документ або на нерелевантний уривок, це сигнал підвищити параметр Score Threshold у налаштуваннях бази до 0.5–0.6, щоб відсіювати слабкі збіги.

❓ Часті запитання (FAQ)

1. Чи безпечно завантажувати конфіденційні документи в Dify?
Dify Cloud зберігає дані на своїх серверах — для персональних чи некритичних документів це нормально. Якщо маєш справу з конфіденційними договорами або персональними даними — встанови Dify локально на свій комп’ютер або сервер (вони мають відкритий код і Docker образ на GitHub). Тоді дані нікуди не передаються.

2. Скільки документів можна завантажити безкоштовно?
На безкоштовному плані Dify дозволяє зберігати до 5 МБ даних у базі знань і до 200 документів. Для більшості особистих або малого бізнесу проєктів цього достатньо. Платний план знімає ці обмеження і коштує від $59 на місяць.

3. Чи підтримуються українськомовні документи?
Так, повністю. Embedding моделі від OpenAI (text-embedding-3-small) чудово працюють з українською мовою — пошук по тексту і відповіді будуть коректними. Задавати питання також можна українською.

4. Що робити якщо ШІ відповідає “не знайдено інформації”, хоча вона є в документах?
Перевір три речі: по-перше, чи документ успішно проіндексований (статус має бути “Available” у базі знань). По-друге, знизь Score Threshold до 0.3 у налаштуваннях бази. По-третє, переформулюй питання — використовуй ті самі слова, які є в тексті документа.

5. Чи можна підключити RAG до Telegram або Slack?
Так. У Dify є вбудована інтеграція: у розділі застосунку натисни Add Feature → обери Telegram Bot або Slack → введи токен бота і готово. Твоя база знань одразу стає доступна через месенджер без додаткових налаштувань.

🏁 Підсумок

Ти навчився будувати повноцінну RAG систему: від реєстрації та підключення AI моделі до створення бази знань і публікації чат-застосунку, який відповідає виключно на основі твоїх документів. Результат — персональний ШІ-асистент, що не вигадує факти, а цитує реальні джерела з твоїх файлів.

Починай прямо зараз: зайди на dify.ai, зареєструйся через Google і завантаж перший документ — весь процес до робочого чату займе менше години. Після першого успішного тесту спробуй підключити другу базу знань або поділися посиланням на чат із колегами.

РОЗСИЛКА

📬 Щотижневий AI-дайджест

Найкращі статті про ШІ та автоматизацію — без спаму, лише суть

Без спаму · Відписатись будь-коли

Telegram