GPT (Generative Pre-trained Transformer) — это языковая модель искусственного интеллекта, разработанная компанией OpenAI. Она обучена на большом объёме текстов и умеет понимать запросы на естественном языке, генерировать ответы, писать тексты, анализировать информацию и помогать в решении различных задач.
GPT не ищет ответ в интернете в реальном времени (если отдельно не подключён поиск), а формирует его на основе знаний, полученных во время обучения.
GPT — это модель, которая изначально предназначена для работы с текстом: она понимает текстовые запросы и генерирует текстовые ответы.
Однако существуют и другие модели искусственного интеллекта, которые работают с изображениями, аудио и другими типами данных. Например, одни модели умеют распознавать изображения, другие — генерировать картинки по описанию, третьи — обрабатывать голос.
В современных системах такие модели могут объединяться, чтобы работать с текстом, изображениями и другими форматами данных одновременно.
Текстовые файлы читаются напрямую. Их содержимое извлекается как обычный текст и передаётся в модель для анализа.
Модель может отвечать на вопросы по тексту, делать краткое содержание, искать информацию или объяснять содержание документа.
Из документа извлекается текстовое содержимое, после чего оно передаётся в модель.
Форматирование (шрифты, цвета, отступы) обычно не имеет значения — для анализа используется именно текст.
Если PDF содержит текстовый слой (обычный PDF-документ), текст извлекается напрямую и передаётся в модель.
Если PDF состоит из отсканированных страниц (как изображение), сначала применяется OCR (распознавание текста), затем полученный текст анализируется моделью.
Если изображение содержит текст (например, скан документа), используется OCR — технология распознавания текста на изображении.
Если используется мультимодальная модель, она может анализировать само изображение: распознавать объекты, схемы, таблицы и структуру документа.
Из файла извлекаются данные таблиц: строки, столбцы и значения ячеек.
После этого модель может анализировать данные, выполнять расчёты, искать закономерности или объяснять структуру таблицы.
Эти форматы содержат структурированные данные. Они разбираются системой, после чего их содержимое передаётся в модель.
Модель может анализировать структуру, объяснять поля, проверять корректность данных или преобразовывать формат.
Файлы инженерных чертежей (например, DWG) не передаются в модель напрямую. Сначала они преобразуются в поддерживаемый формат — например, в PDF, изображение или текстовое представление.
Далее система может анализировать извлечённый текст, применять OCR для распознавания надписей или использовать мультимодальную модель для анализа изображения чертежа.
ZIP-файл сначала распаковывается системой. После этого каждый файл внутри архива обрабатывается отдельно в зависимости от его типа (текст, PDF, изображение и т.д.).
Сама модель не анализирует архив как единый объект — она работает с содержимым файлов внутри него.
Аудиофайлы сначала проходят этап распознавания речи (преобразование речи в текст).
Полученный текст затем передаётся в модель для анализа: можно сделать расшифровку, краткое содержание, выделить ключевые моменты или ответить на вопросы по записи.
Видео обычно анализируется поэтапно: сначала извлекается аудиодорожка и при необходимости — отдельные кадры.
Аудио преобразуется в текст, а изображения кадров могут анализироваться мультимодальной моделью. После этого система формирует итоговый анализ.
Да, ограничения зависят от используемой системы и настроек сервера.
Большие файлы могут разбиваться на части, чтобы модель могла обрабатывать их поэтапно. В системах RAG документы обычно делятся на блоки (chunks) для более точного поиска и анализа.
OCR (Optical Character Recognition) — это технология распознавания текста на изображениях.
Если документ загружен в виде скана или фотографии, система сначала «считывает» текст с изображения, преобразует его в обычный текстовый формат, а затем передаёт в модель для анализа.
Мультимодальная модель — это модель искусственного интеллекта, которая умеет работать не только с текстом, но и с изображениями, аудио и другими типами данных.
Такие модели могут анализировать фотографии, схемы, таблицы и документы, а также понимать их связь с текстом.
RAG (Retrieval-Augmented Generation) — это метод работы с документами, при котором модель сначала получает релевантные фрагменты из базы знаний, а затем формирует ответ с учётом найденного контекста.
Это позволяет давать более точные и обоснованные ответы, особенно при работе с большими наборами документов.
Реализация RAG возможна при использовании API OpenAI, так как требуется программный доступ к модели и возможность подключать собственную базу данных.
Обычная подписка ChatGPT (Plus, Pro и др.) предназначена для использования через интерфейс и не даёт прямого доступа к серверной интеграции.
Для реализации RAG используется API-доступ, который оплачивается по факту использования (pay-as-you-go). В корпоративных решениях может применяться тариф Enterprise.
Да. База данных документов, поиск по embedding и вся серверная логика могут находиться полностью на вашем сервере.
В этом случае внешней модели передаётся только найденный контекст и запрос пользователя.
Также существуют варианты использования полностью локальных open-source моделей, но это требует мощного оборудования и отдельной настройки инфраструктуры.
Безопасность зависит от настроек конкретной системы. В корпоративных решениях данные могут храниться на внутреннем сервере и не передаваться третьим лицам.
Перед загрузкой конфиденциальных документов рекомендуется убедиться в политике хранения и обработки данных.
Это зависит от конфигурации сервера. В системах с RAG документы обычно сохраняются для последующего поиска и анализа.
В некоторых режимах файл может использоваться только временно для формирования ответа.
Да. Модель генерирует ответы на основе вероятностного анализа текста и может допускать неточности.
При работе с важной информацией рекомендуется дополнительно проверять результаты.
Модель анализирует текст запроса и, при необходимости, дополнительный контекст (например, документы в системе RAG).
Затем она прогнозирует наиболее вероятный и логически связанный ответ на основе своих знаний и предоставленного контекста.
Модель работает вероятностным способом — она может формулировать ответы разными словами, даже если смысл остаётся тем же.
Также на результат влияет контекст диалога, подключённые документы и параметры генерации.
Поисковая система показывает список ссылок на источники информации.
GPT формирует готовый текстовый ответ, обобщая информацию и объясняя её понятным языком. При использовании RAG модель может опираться на документы из базы знаний.
Базовая модель обучается на данных, собранных до определённого момента времени.
Без подключения внешнего поиска или обновляемой базы данных она не получает информацию в реальном времени.
Модель учитывает предыдущие сообщения в рамках текущего диалога.
Это позволяет поддерживать связность разговора, помнить уточнения и отвечать с учётом ранее заданных вопросов.
Токены — это единицы текста, которые использует модель для обработки информации. Это не совсем слова: одно слово может состоять из нескольких токенов, а короткие слова могут быть одним токеном.
Примерно 1 токен — это 3–4 символа русского текста или около ¾ английского слова.
Оплата при использовании API рассчитывается по количеству входящих и исходящих токенов.
Модель не «помнит» разговор между запросами. Каждый запрос к API — это отдельное обращение.
Чтобы сохранить контекст диалога, система при каждом новом запросе повторно отправляет всю историю сообщений вместе с новым вопросом.
Поэтому первое сообщение может занимать, например, 50 токенов, а пятое — уже 500 токенов, потому что в него включены все предыдущие реплики диалога.
Если отправить только новый вопрос без предыдущих сообщений, модель будет воспринимать его как начало нового диалога.
Именно поэтому система повторно передаёт историю — чтобы сохранить логическую связность разговора.
Обычная подписка (например, ChatGPT Plus или Pro) предназначена для использования через веб-интерфейс или мобильное приложение.
API предоставляет программный доступ к моделям — его можно использовать в собственных приложениях, на сервере, в чат-ботах и корпоративных системах.
Подписка и API оплачиваются отдельно: API работает по модели pay-as-you-go (оплата за фактически использованные токены).
Для снижения расхода токенов можно:
Для запуска собственного сервиса обычно требуется:
В системах RAG дополнительно реализуется разбиение документов на блоки (chunks) и их индексирование.
Embeddings — это числовое представление текста в виде вектора.
Специальная модель преобразует текстовый фрагмент в набор чисел, который отражает его смысл. Похожие по смыслу тексты имеют близкие векторы.
В системе RAG embeddings используются для быстрого поиска релевантных фрагментов документа по смыслу, а не по точному совпадению слов.
Стоимость зависит от объёма текста и количества токенов, которые используются при создании embeddings и генерации ответов.
В системах RAG первоначальная загрузка документов требует создания embeddings для всех блоков текста. Это одноразовая операция.
Далее оплачиваются только токены, используемые при поиске и формировании ответов.
Итоговая стоимость зависит от объёма данных, частоты запросов и выбранной модели.