Як побудувати знаннєву базу з Claude Code для пошуку інформації - Aitematic

Ця інструкція вирішує типову проблему розробників і дослідників: документація розкидана по десятках файлів, а знайти потрібне швидко — майже нереально. За допомогою Claude Code ми побудуємо локальну знаннєву базу з семантичним пошуком, яка відповідатиме на запити природною мовою. На весь процес піде від 1 до 2 годин, а результат буде працювати повністю офлайн на вашій машині.

🛠️ Що знадобиться

Claude Code (Anthropic CLI) — основний інструмент для генерації коду та автоматизації; встановлюється через npm, потрібен платний план Claude Pro або API-ключ
Python 3.11+ — середовище виконання для скриптів бази знань; безкоштовний
ChromaDB — локальна векторна база даних для зберігання ембедингів; безкоштовна, встановлюється через pip
Ollama (або OpenAI API) — для генерації векторних ембедингів; Ollama безкоштовний і повністю локальний, OpenAI потребує оплати
VS Code або будь-який термінал — для роботи з Claude Code; безкоштовний

📋 Покрокова інструкція

Крок 1: Встановлення та налаштування Claude Code

Відкрийте термінал і виконайте команду npm install -g @anthropic-ai/claude-code. Після встановлення введіть claude — відкриється інтерактивна сесія. Вас попросять ввести API-ключ: перейдіть на console.anthropic.com → API Keys → Create Key, скопіюйте ключ і вставте в термінал. Потім виконайте claude config set model claude-opus-4-5, щоб використовувати найпотужнішу модель для генерації коду. Перевірте, що все працює, набравши claude "напиши hello world на Python" — повинен з’явитися готовий код.

Крок 2: Підготовка та структурування документів

Зберіть усі ваші документи в одну папку, наприклад ~/knowledge_base/docs/. Claude Code чудово обробляє Markdown, PDF, TXT та навіть DOCX-файли. Відкрийте термінал у цій папці і виконайте команду claude "проаналізуй всі файли в поточній директорії і створи файл структури index.json з переліком документів, їхніми темами та ключовими словами". Claude Code автоматично прочитає файли, визначить теми й збереже структурований індекс. Важливо: якщо документів більше 50 — розбийте їх по тематичних підпапках перед запуском, це суттєво покращить якість індексації.

Крок 3: Генерація скрипту знаннєвої бази

Тепер попросимо Claude Code написати весь необхідний код. У терміналі в папці проєкту введіть:

claude "створи Python-скрипт knowledge_base.py який: 1) читає всі .md і .txt файли з папки docs/, 2) розбиває їх на чанки по 500 токенів з перекриттям 50 токенів, 3) зберігає в ChromaDB з метаданими (назва файлу, дата, теги), 4) має функцію search(query, top_k=5) яка повертає найрелевантніші фрагменти. Використовуй sentence-transformers модель paraphrase-multilingual-mpnet-base-v2 для ембедингів". Claude Code згенерує повноцінний скрипт, встановить залежності і навіть напише requirements.txt. Після генерації одразу виконайте pip install -r requirements.txt.

Крок 4: Індексація документів та тестування пошуку

Запустіть індексацію командою python knowledge_base.py --index. Процес займе від 2 до 15 хвилин залежно від обсягу документів — у терміналі будете бачити прогрес-бар. Коли індексація завершиться, одразу протестуйте пошук: python knowledge_base.py --search "як налаштувати автентифікацію". Ви побачите 5 найбільш релевантних фрагментів із вказівкою джерела та відсотком схожості. Якщо результати нерелевантні — поверніться до Claude Code і скажіть claude "у файлі knowledge_base.py покращ функцію чанкінгу: розбивай по абзацах, а не просто по токенах, і зберігай заголовок розділу як метадані".

Крок 5: Додавання розмовного інтерфейсу та автооновлення

Фінальний крок — зробити базу знань зручною для щоденного використання. Введіть у Claude Code: claude "додай до knowledge_base.py інтерактивний чат-режим (--chat), де користувач ставить запитання, система знаходить релевантні фрагменти і Claude API формулює зв'язну відповідь на основі знайденого контексту. Також додай режим --watch який слідкує за папкою docs/ і автоматично переіндексує нові файли". Після цього запустіть python knowledge_base.py --chat — відкриється інтерактивна оболонка, де ви зможете писати запити природною мовою і отримувати відповіді з посиланнями на конкретні документи. Ваша знаннєва база повністю готова до роботи.

⚠️ Типові помилки та як їх уникнути

Занадто великі чанки (більше 1000 токенів) — пошук стає нечітким, бо один чанк містить кілька тем одночасно; оптимальний розмір — 300–600 токенів із перекриттям 10–15%
Ігнорування метаданих при індексації — без метаданих неможливо зрозуміти, з якого документа прийшов результат; завжди зберігайте мінімум: ім’я файлу, дату створення і заголовок розділу
Використання англомовної моделі ембедингів для українських текстів — модель all-MiniLM-L6-v2 погано працює з кирилицею; обов’язково використовуйте paraphrase-multilingual-mpnet-base-v2 або intfloat/multilingual-e5-large
Запуск переіндексації вручну після кожного оновлення — це швидко забувається; налаштуйте режим --watch або cron-задачу на щоденну переіндексацію о 3:00 ночі
Відсутність резервної копії векторної бази — ChromaDB зберігає дані локально у папці ./chroma_db/; додайте цю папку до вашого бекап-рішення, бо повторна індексація великого архіву займає години

💡 Поради для кращого результату

Додавайте синтетичні запитання до документів. Попросіть Claude Code: claude "для кожного документа в docs/ згенеруй 10 запитань, відповіді на які є в цьому документі, і збережи їх у метаданих". Це радикально покращує якість пошуку, бо ви індексуєте не лише текст, а й можливі запити до нього. Використовуйте гібридний пошук. Поєднуйте векторний пошук (семантична схожість) із повнотекстовим BM25 — ChromaDB підтримує обидва режими одночасно. Для цього скажіть Claude Code додати параметр search_type="hybrid". Створіть колекції за темами. Замість однієї гігантської бази розбийте документи на колекції: “технічна документація”, “бізнес-процеси”, “зустрічі” — і при пошуку вказуйте колекцію, щоб зменшити шум. Регулярно перевіряйте якість через eval-набір. Раз на місяць запускайте 20 тестових запитань і перевіряйте, чи перший результат справді найрелевантніший — це дозволить вчасно помітити деградацію бази.

❓ Часті запитання (FAQ)

1. Чи можна використовувати Claude Code без інтернету після налаштування?
Частково. Claude Code потребує інтернету для звернення до API Anthropic. Але якщо замінити генерацію відповідей на локальну модель через Ollama (наприклад, llama3.1 або mistral), знаннєва база буде повністю офлайн. Ембединги з sentence-transformers також працюють локально без інтернету.

2. Скільки документів витримує ChromaDB без гальмувань?
ChromaDB легко обробляє до 1 мільйона векторів на звичайному ноутбуці. Якщо у вас більше 500 тисяч чанків — розгляньте міграцію на Qdrant або Weaviate, які краще оптимізовані для великих обсягів і мають вбудований REST API.

3. Чи може Claude Code сам оновлювати базу, коли я додаю нові документи?
Так, саме для цього в кроці 5 ми додали режим --watch. Скрипт використовує бібліотеку watchdog для відстеження змін у папці docs/ і автоматично індексує нові або змінені файли протягом кількох секунд після їх появи.

4. Як захистити знаннєву базу від витоку конфіденційних даних через API?
Використовуйте Ollama із локальною моделлю замість хмарного API — тоді жоден текст ваших документів не покидає машину. Якщо хмарний API необхідний, переконайтеся, що в налаштуваннях Anthropic увімкнена опція “Do not train on my data” у розділі Privacy консолі.

5. Що робити, якщо Claude Code генерує код з помилками?
Просто скопіюйте текст помилки і вставте в Claude Code: claude "виправ помилку: [текст помилки]". Claude Code бачить контекст попереднього коду і виправляє проблему в 95% випадків з першої спроби. Якщо помилка повторюється — додайте --verbose для детального логування і передайте повний лог.

🏁 Підсумок

Ви навчилися будувати повноцінну знаннєву базу з семантичним пошуком: від індексації документів до розмовного інтерфейсу, який відповідає на запити природною мовою і посилається на конкретні джерела. Результат — локальна система, яка замінює години ручного пошуку по файлах на кілька секунд точного запиту.

Почніть прямо зараз: встановіть Claude Code, візьміть 10–15 ваших найважливіших робочих документів і запустіть першу індексацію. Вже через годину ви зможете ставити запитання своїм власним знанням і отримувати миттєві точні відповіді.