Як використовувати GPT-4 Vision для аналізу зображень: покроковий туторіал

GPT-4 Vision дозволяє буквально «показати» штучному інтелекту фото, скріншот або діаграму — і отримати детальний аналіз текстом. Це вирішує задачі від розпізнавання тексту на фото до аналізу графіків і медичних знімків. Туторіал розрахований на 30–40 хвилин і підходить як для роботи через браузер, так і через API. Тобі знадобиться акаунт OpenAI та базове розуміння того, що таке API-запит — більше нічого.

🛠️ Що знадобиться

Акаунт OpenAI (ChatGPT Plus або API-доступ) — для роботи з GPT-4o (актуальна мультимодальна модель у 2026 році); ChatGPT Plus коштує $20/місяць, API — оплата за токени
Python 3.10+ або будь-який REST-клієнт (Postman, Insomnia) — для надсилання запитів через API; безкоштовний інструмент
Зображення для аналізу — JPG, PNG, WEBP або GIF до 20 МБ; підійде будь-яке фото з телефону або скріншот екрана
OpenAI API-ключ — генерується безкоштовно в особистому кабінеті, але кожен запит списує кредити з балансу

📋 Покрокова інструкція

Крок 1: Отримай API-ключ OpenAI

Зайди на platform.openai.com, авторизуйся і натисни на іконку свого профілю у правому верхньому куті. Обери пункт «API keys» у бічному меню, потім натисни зелену кнопку «Create new secret key». Дай ключу назву, наприклад vision-tutorial, і натисни «Create secret key» — одразу скопіюй рядок виду sk-proj-... і збережи його у безпечному місці (наприклад, у менеджері паролів). Після закриття вікна ключ більше не буде показаний повністю, тому не пропусти цей момент.

Крок 2: Перевір доступ через ChatGPT (швидкий спосіб без коду)

Якщо ти маєш підписку ChatGPT Plus, просто зайди на chat.openai.com і переконайся, що у верхньому меню вибрано модель GPT-4o. Натисни іконку скріпки або фотоапарата ліворуч від поля вводу — відкриється провідник файлів. Обери своє зображення, дочекайся завантаження (прев’ю з’явиться у чаті) і напиши запит у текстовому полі, наприклад: «Опиши детально що зображено на фото та виділи всі текстові елементи». Натисни Enter і за 5–10 секунд отримаєш відповідь. Це найшвидший спосіб перевірити можливості без жодного коду.

Крок 3: Налаштуй Python-середовище для роботи через API

Відкрий термінал і встанови офіційну бібліотеку OpenAI командою pip install openai. Потім створи новий файл vision_test.py у зручній папці. На початку файлу пропиши дві змінні: import os та встанови ключ через змінну середовища командою в терміналі export OPENAI_API_KEY="sk-proj-твій_ключ" (на Windows: set OPENAI_API_KEY=sk-proj-твій_ключ). Ніколи не вписуй API-ключ напряму у код файлу — якщо випадково завантажиш файл на GitHub, ключ буде скомпрометовано за лічені хвилини.

Крок 4: Напиши перший запит з аналізу зображення

Встав наступний код у файл vision_test.py і замість URL підстав посилання на будь-яке публічне зображення (або закодуй локальний файл у base64 — про це далі):

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Проаналізуй це зображення детально. Опиши об'єкти, кольори, текст і загальний контекст."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/PNG_transparency_demonstration_1.png/280px-PNG_transparency_demonstration_1.png"
                    }
                }
            ]
        }
    ],
    max_tokens=1000
)

print(response.choices[0].message.content)

Запусти файл командою python vision_test.py у терміналі. Якщо все налаштовано правильно, за кілька секунд побачиш детальний текстовий аналіз зображення прямо у консолі.

Крок 5: Аналізуй локальні файли через base64-кодування

Для роботи з файлами зі свого комп’ютера (а не з публічних URL) потрібно конвертувати зображення у base64. Додай на початок файлу імпорт import base64, а потім перед запитом встав такий блок коду:

with open("твоє_фото.jpg", "rb") as image_file:
    base64_image = base64.b64encode(image_file.read()).decode("utf-8")

Тепер у полі url замість посилання вкажи рядок у форматі: "data:image/jpeg;base64," + base64_image. Збережи файл, поклади поруч своє фото з назвою твоє_фото.jpg і знову запусти python vision_test.py. У результаті ти отримаєш повний аналіз свого локального зображення — це і є фінальний робочий результат туторіалу.

⚠️ Типові помилки та як їх уникнути

Помилка «Invalid API Key» — перевір, чи правильно встановлена змінна середовища; у новому вікні терміналу треба знову виконати команду export, бо змінні не зберігаються між сесіями
Зображення не розпізнається або відповідь порожня — перевір розмір файлу (максимум 20 МБ) і формат (лише JPG, PNG, WEBP, GIF); PDF і HEIC не підтримуються — конвертуй їх заздалегідь через онлайн-сервіс ilovepdf.com або Squoosh
Надто розмита або коротка відповідь від моделі — збільш параметр max_tokens до 2000–4000; за замовчуванням модель може обрізати відповідь на половині речення
Висока вартість запитів — зображення з деталізацією "detail": "high" коштує значно дорожче; для простих задач (розпізнавання тексту, загальний опис) додай у блок image_url параметр "detail": "low" — це зменшить витрати на 80%

💡 Поради для кращого результату

1. Формулюй конкретне завдання у промпті. Замість «що на фото?» пиши «перелич усі числа та відсотки з цього графіка у форматі JSON» — модель дасть структуровану відповідь, яку можна одразу використати в коді.

2. Надсилай кілька зображень в одному запиті. API підтримує масив із декількох image_url-блоків у межах одного повідомлення — це корисно для порівняння двох скріншотів або аналізу серії фото з одного заходу.

3. Використовуй системний промпт для постійних задач. Якщо аналізуєш однотипні документи (наприклад, чеки або накладні), додай повідомлення з роллю "role": "system" перед запитом користувача: «Ти — фінансовий асистент. Завжди витягуй суму, дату і назву продавця у форматі таблиці». Це позбавить тебе від повторення інструкцій у кожному запиті.

4. Стискай зображення перед відправкою. Файли понад 2 МБ обробляються довше і коштують дорожче, але не дають кращого результату для більшості задач. Використовуй Squoosh (squoosh.app) — завантажуй фото, стискай до 70–80% якості і зберігай у WebP.

❓ Часті запитання (FAQ)

1. Чи можна аналізувати зображення безкоштовно?
Безкоштовного рівня для GPT-4o Vision через API немає — потрібен поповнений баланс. Але через ChatGPT Plus ($20/місяць) ти отримуєш необмежений доступ до аналізу зображень у браузері без додаткових витрат на токени.

2. Яка різниця між GPT-4o і GPT-4 Vision?
GPT-4 Vision — це стара назва мультимодальної версії. У 2025–2026 роках OpenAI об’єднала всі можливості у модель GPT-4o, яка швидша, дешевша і підтримує більше форматів. Завжди вказуй model="gpt-4o" у запитах.

3. Чи може модель читати текст з фото (OCR)?
Так, і досить точно — особливо для друкованого тексту, скріншотів інтерфейсів і відсканованих документів. Для рукописного тексту точність нижча, але базові слова модель розпізнає. Якщо потрібна висока точність OCR — додай у промпт: «Передай текст дослівно, зберігаючи розбивку на рядки».

4. Скільки коштує один запит з зображенням?
Вартість залежить від розміру зображення і режиму деталізації. Орієнтовно: одне фото у режимі detail: low коштує ~$0.001, у режимі detail: high — від $0.005 до $0.02 залежно від розміру. Слідкуй за витратами у розділі Usage на platform.openai.com.

5. Чи можна аналізувати відео?
Пряма передача відеофайлу не підтримується. Але ти можеш розбити відео на кадри (наприклад, через FFmpeg командою ffmpeg -i video.mp4 -vf fps=1 frame_%03d.jpg) і надіслати серію зображень в одному або кількох запитах для аналізу по сценах.

🏁 Підсумок

Після цього туторіалу ти вмієш надсилати зображення до GPT-4o через браузер і через API, кодувати локальні файли у base64, формулювати ефективні промпти для структурованого аналізу та контролювати витрати через параметр деталізації. Це відкриває можливості для автоматизації десятків рутинних задач — від обробки документів до аналізу скріншотів інтерфейсів.

Почни прямо зараз: зайди на chat.openai.com, обери GPT-4o, завантаж будь-яке фото зі свого телефону і запитай модель детально описати зображення. Цей перший дослід займе менше хвилини — а далі вже знатимеш, як підключити це до свого реального проєкту через API.