Як використовувати GPT-4 Vision для аналізу зображень: покроковий туторіал
GPT-4 Vision дозволяє буквально «показати» штучному інтелекту фото, скріншот або діаграму — і отримати детальний аналіз текстом. Це вирішує задачі від розпізнавання тексту на фото до аналізу графіків і медичних знімків. Туторіал розрахований на 30–40 хвилин і підходить як для роботи через браузер, так і через API. Тобі знадобиться акаунт OpenAI та базове розуміння того, що таке API-запит — більше нічого.
🛠️ Що знадобиться
- Акаунт OpenAI (ChatGPT Plus або API-доступ) — для роботи з GPT-4o (актуальна мультимодальна модель у 2026 році); ChatGPT Plus коштує $20/місяць, API — оплата за токени
- Python 3.10+ або будь-який REST-клієнт (Postman, Insomnia) — для надсилання запитів через API; безкоштовний інструмент
- Зображення для аналізу — JPG, PNG, WEBP або GIF до 20 МБ; підійде будь-яке фото з телефону або скріншот екрана
- OpenAI API-ключ — генерується безкоштовно в особистому кабінеті, але кожен запит списує кредити з балансу
📋 Покрокова інструкція
Крок 1: Отримай API-ключ OpenAI
Зайди на platform.openai.com, авторизуйся і натисни на іконку свого профілю у правому верхньому куті. Обери пункт «API keys» у бічному меню, потім натисни зелену кнопку «Create new secret key». Дай ключу назву, наприклад vision-tutorial, і натисни «Create secret key» — одразу скопіюй рядок виду sk-proj-... і збережи його у безпечному місці (наприклад, у менеджері паролів). Після закриття вікна ключ більше не буде показаний повністю, тому не пропусти цей момент.

Крок 2: Перевір доступ через ChatGPT (швидкий спосіб без коду)
Якщо ти маєш підписку ChatGPT Plus, просто зайди на chat.openai.com і переконайся, що у верхньому меню вибрано модель GPT-4o. Натисни іконку скріпки або фотоапарата ліворуч від поля вводу — відкриється провідник файлів. Обери своє зображення, дочекайся завантаження (прев’ю з’явиться у чаті) і напиши запит у текстовому полі, наприклад: «Опиши детально що зображено на фото та виділи всі текстові елементи». Натисни Enter і за 5–10 секунд отримаєш відповідь. Це найшвидший спосіб перевірити можливості без жодного коду.
Крок 3: Налаштуй Python-середовище для роботи через API
Відкрий термінал і встанови офіційну бібліотеку OpenAI командою pip install openai. Потім створи новий файл vision_test.py у зручній папці. На початку файлу пропиши дві змінні: import os та встанови ключ через змінну середовища командою в терміналі export OPENAI_API_KEY="sk-proj-твій_ключ" (на Windows: set OPENAI_API_KEY=sk-proj-твій_ключ). Ніколи не вписуй API-ключ напряму у код файлу — якщо випадково завантажиш файл на GitHub, ключ буде скомпрометовано за лічені хвилини.
Крок 4: Напиши перший запит з аналізу зображення
Встав наступний код у файл vision_test.py і замість URL підстав посилання на будь-яке публічне зображення (або закодуй локальний файл у base64 — про це далі):
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Проаналізуй це зображення детально. Опиши об'єкти, кольори, текст і загальний контекст."
},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/PNG_transparency_demonstration_1.png/280px-PNG_transparency_demonstration_1.png"
}
}
]
}
],
max_tokens=1000
)
print(response.choices[0].message.content)
Запусти файл командою python vision_test.py у терміналі. Якщо все налаштовано правильно, за кілька секунд побачиш детальний текстовий аналіз зображення прямо у консолі.
Крок 5: Аналізуй локальні файли через base64-кодування
Для роботи з файлами зі свого комп’ютера (а не з публічних URL) потрібно конвертувати зображення у base64. Додай на початок файлу імпорт import base64, а потім перед запитом встав такий блок коду:
with open("твоє_фото.jpg", "rb") as image_file:
base64_image = base64.b64encode(image_file.read()).decode("utf-8")
Тепер у полі url замість посилання вкажи рядок у форматі: "data:image/jpeg;base64," + base64_image. Збережи файл, поклади поруч своє фото з назвою твоє_фото.jpg і знову запусти python vision_test.py. У результаті ти отримаєш повний аналіз свого локального зображення — це і є фінальний робочий результат туторіалу.
⚠️ Типові помилки та як їх уникнути
- Помилка «Invalid API Key» — перевір, чи правильно встановлена змінна середовища; у новому вікні терміналу треба знову виконати команду
export, бо змінні не зберігаються між сесіями - Зображення не розпізнається або відповідь порожня — перевір розмір файлу (максимум 20 МБ) і формат (лише JPG, PNG, WEBP, GIF); PDF і HEIC не підтримуються — конвертуй їх заздалегідь через онлайн-сервіс ilovepdf.com або Squoosh
- Надто розмита або коротка відповідь від моделі — збільш параметр
max_tokensдо 2000–4000; за замовчуванням модель може обрізати відповідь на половині речення - Висока вартість запитів — зображення з деталізацією
"detail": "high"коштує значно дорожче; для простих задач (розпізнавання тексту, загальний опис) додай у блокimage_urlпараметр"detail": "low"— це зменшить витрати на 80%
💡 Поради для кращого результату
1. Формулюй конкретне завдання у промпті. Замість «що на фото?» пиши «перелич усі числа та відсотки з цього графіка у форматі JSON» — модель дасть структуровану відповідь, яку можна одразу використати в коді.
2. Надсилай кілька зображень в одному запиті. API підтримує масив із декількох image_url-блоків у межах одного повідомлення — це корисно для порівняння двох скріншотів або аналізу серії фото з одного заходу.
3. Використовуй системний промпт для постійних задач. Якщо аналізуєш однотипні документи (наприклад, чеки або накладні), додай повідомлення з роллю "role": "system" перед запитом користувача: «Ти — фінансовий асистент. Завжди витягуй суму, дату і назву продавця у форматі таблиці». Це позбавить тебе від повторення інструкцій у кожному запиті.
4. Стискай зображення перед відправкою. Файли понад 2 МБ обробляються довше і коштують дорожче, але не дають кращого результату для більшості задач. Використовуй Squoosh (squoosh.app) — завантажуй фото, стискай до 70–80% якості і зберігай у WebP.

❓ Часті запитання (FAQ)
1. Чи можна аналізувати зображення безкоштовно?
Безкоштовного рівня для GPT-4o Vision через API немає — потрібен поповнений баланс. Але через ChatGPT Plus ($20/місяць) ти отримуєш необмежений доступ до аналізу зображень у браузері без додаткових витрат на токени.
2. Яка різниця між GPT-4o і GPT-4 Vision?
GPT-4 Vision — це стара назва мультимодальної версії. У 2025–2026 роках OpenAI об’єднала всі можливості у модель GPT-4o, яка швидша, дешевша і підтримує більше форматів. Завжди вказуй model="gpt-4o" у запитах.
3. Чи може модель читати текст з фото (OCR)?
Так, і досить точно — особливо для друкованого тексту, скріншотів інтерфейсів і відсканованих документів. Для рукописного тексту точність нижча, але базові слова модель розпізнає. Якщо потрібна висока точність OCR — додай у промпт: «Передай текст дослівно, зберігаючи розбивку на рядки».
4. Скільки коштує один запит з зображенням?
Вартість залежить від розміру зображення і режиму деталізації. Орієнтовно: одне фото у режимі detail: low коштує ~$0.001, у режимі detail: high — від $0.005 до $0.02 залежно від розміру. Слідкуй за витратами у розділі Usage на platform.openai.com.
5. Чи можна аналізувати відео?
Пряма передача відеофайлу не підтримується. Але ти можеш розбити відео на кадри (наприклад, через FFmpeg командою ffmpeg -i video.mp4 -vf fps=1 frame_%03d.jpg) і надіслати серію зображень в одному або кількох запитах для аналізу по сценах.
🏁 Підсумок
Після цього туторіалу ти вмієш надсилати зображення до GPT-4o через браузер і через API, кодувати локальні файли у base64, формулювати ефективні промпти для структурованого аналізу та контролювати витрати через параметр деталізації. Це відкриває можливості для автоматизації десятків рутинних задач — від обробки документів до аналізу скріншотів інтерфейсів.
Почни прямо зараз: зайди на chat.openai.com, обери GPT-4o, завантаж будь-яке фото зі свого телефону і запитай модель детально описати зображення. Цей перший дослід займе менше хвилини — а далі вже знатимеш, як підключити це до свого реального проєкту через API.
РОЗСИЛКА
📬 Щотижневий AI-дайджест
Найкращі статті про ШІ та автоматизацію — без спаму, лише суть
Без спаму · Відписатись будь-коли

