Оценка качества прогнозов Машинное и глубокое обучение

Hollis Reese

Mar 25, 2025 • 4 min read

Для начала необходимо определить цели и требования к модели, чтобы выбрать подходящие для сравнения варианты. https://auslander.expert/ai-content-riski-resheniya/ Автоподбор параметров позволяет провести эффективный поиск оптимальной конфигурации модели, исследуя различные варианты гиперпараметров и выбирая наилучший набор для конкретной задачи. Для этого используются различные методы оптимизации, такие как случайный поиск, жадный поиск, генетические алгоритмы, байесовская оптимизация и другие. При разработке моделей на основе трансформеров необходимо выбирать различные гиперпараметры, такие как количество слоев, размерность пространства внимания, размер мини-батчей и так далее. Оптимальный набор параметров существенно влияет на производительность модели и качество ее предсказаний. Одним из примеров применения свёрточных нейронных сетей является распознавание объектов на изображениях, таких как автомобили, лица людей, животные и так далее. При этом меньшего количества графовых гипотез оказалось достаточным для достижения качества классификации отзывов, сопоставимого с качеством классификации в случае использования векторных гипотез. В последние годы нейронные модели с использованием машинного обучения стали большой частью разнообразных сфер человеческой деятельности. Одним из наиболее растущих направлений в этом контексте стало использование языковых моделей, таких как LLM (Large Language Models). Эти модели, которые включают в себя современные достижения в сфере обработки языка, имеют потенциал решать разнообразные задачи в широком спектре областей. От анализа текста, суммаризации и автоматического перевода до генерации контента и управления данными, LLM модели оказались чрезвычайно полезными инструментами для решения сложных задач в современном мире. Определение архитектуры нейронной сети начинается с понимания задачи, которую необходимо решить.

Сравнение различных архитектур нейронных сетей: что выбрать для своего проекта

Однако достаточно часто метод в обоих случаях присваивает тексту одинаковый класс тональности. Среднее количество одинаково классифицированных текстов для функции OR изменяется от 92 до 96 % в зависимости от предметной области. Галлюцинации в языковых моделях возникают из-за несовершенства обучающих данных. Для обучения таких моделей обычно используются большие массивы текстов из интернета, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода. Языковая модель — модель машинного обучения, которая при данном ей контексте предсказывает для каждого слова в языке вероятность того, что оно является продолжением данного контекста.

2.1 Архитектура Transformer и принцип работы

Например, потери больших блоков текста в переводе (undertranslation) или, наоборот, «придумывание» текста от себя в отрыве от source-предложения (overtranslation). При независимом переводе блоков, в которых содержится лексическая когезия, перевод ключевых слов может получиться неконсистентным. В таком случае связность текста теряется, что также затрудняет восприятие смысла. Когезия — способ связывать между собой предложения внутри текста, а лексическая когезия делает это с помощью повторений или других референтных выражений между словами. Кроме того, из одного и того же датасета документов можно получить значительно больше обучающих сэмплов предложений, чем сэмплов параграфов или бо́льших фрагментов. Если суммарно данных не так много, то обучение на предложениях — единственный вариант.

Это модель с инструкциями (то есть обученная с помощью RLHF следовать инструкциям пользователя) на 7 миллиардов параметров.
Языковая модель — модель машинного обучения, которая при данном ей контексте предсказывает для каждого слова в языке вероятность того, что оно является продолжением данного контекста.
В первом подходе предлагается сначала сопоставить опорники с входящим запросом, вычислив попарно векторную близость между эмбеддингами входящего запроса и каждого из опорников.
В отличие от моделей, обученных с помощью обучения с подкреплением на основе человеческой обратной связи (RLHF), Клод использует генерируемую моделью систему ранжирования в соответствии с "конституционным" подходом к ИИ.
Этот метод оказывается полезным в тематическом моделировании, где матрицей может быть, например, матрица "слова-документы", а разложение позволяет выявить скрытые темы и их связь с документами.

Типичная архитектура сверточных текстовых моделей включает сверточные слои, слои пулинга и полносвязанные слои. Экспериментирование с различными конфигурациями слоев может помочь найти оптимальную архитектуру. В то же время, GPT-3, являясь самой крупной на данный момент нейросетью, имеет 175 млрд параметров. В связи с тем, что данные для дообучения были созданы на основе новостных изданий, то текст для демонстрации был выбран из новостного источника. Это достигается с помощью маскирования (треугольная матрица, где фиолетовые значения — нули), которое предотвращает появление информации о будущих токенах. Также на рисунке ниже представлено сравнение Self-Attention и masked Self-Attention. При температуре близкой к 0 модель стремится дать более точный результат, при близкой к 1 выводит слова, которые менее часто встречались в обучающей выборке. Контекстное окно — количество токенов, которые можно передать модели за раз (эквивалентно RAM в памяти компьютера). Платформа Hugging Face, известная как "Хаб", представляет собой огромное хранилище моделей, токенизаторов, наборов данных и демонстрационных приложений (пространств), доступных в виде ресурсов https://roboticsbusinessreview.com/category/ai/ с открытым исходным кодом. Эта библиотека, использующая различные архитектуры LLM, стала одним из самых быстрорастущих проектов с открытым исходным кодом в этой области. Hugging Face, часто называемый GitHub-ом для больших языковых моделей (LLM), способствует созданию открытой экосистемы для LLM. Основные цели Anthropic в работе с Claude включают демократизацию исследований в области ИИ и создание среды открытых исследований для совместного решения присущих ИИ проблем, таких как предвзятость и токсичность. Кроме того, публичный выпуск этих моделей способствует совместным исследованиям, позволяя решать такие важные проблемы, как предвзятость и токсичность в ИИ. Кроме того, такой подход позволяет создавать частные экземпляры моделей, что снижает зависимость от внешних API и повышает уровень конфиденциальности данных. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше. Первые современные большие языковые модели с 2017 года строятся на архитектуре Transformer, которая остаётся актуальной и в наши дни. Трансформер (Transformer) — базовая архитектура для многих современных моделей обработки естественного языка. И это если не учитывать тот факт, что сами «человеческие» переводы на WMT не являются безупречными. Машинный перевод — одна из наиболее известных и классических задач в компьютерной лингвистике. Первые коммерческие системы появились уже в 1990-х годах, а начиная с середины 2000-х, движки https://aiinstitute.org real-time-перевода стали доступны уже для всех пользователей интернета. Если вам хочется попрактиковаться в создании фреймворка тестирования для LLM, то лучше всего попробовать реализовать всё с нуля. Поскольку разбиение на обучающие и валидационные блоки происходит случайно, то результаты могут различаться при перезапусках. Это достигается инициализацией генератора случайных чисел фиксированным числом (random state, random seed). Если позволяют вычислительные ресурсы, можно перезапустить процедуру несколько раз с разной инициализацией, чтобы оценить влияние характера случайного разбиения на результат. Для этого размеченная выборка делится на K примерно равных групп объектов, называемых блоками (K-fold cross-validation). Данный подход также называется валидацией на отложенных данных (hold-out validation). Языковая модель назначает оценки правдоподобия для прогнозирования следующего токена в последовательности. Так как наша работа посвящена модели генерации текста, рассматривать подходы для обучения мы будем на примере текстов. В современном мире постоянно развивающихся информационных технологий и работы с искусственным интеллектом роль модели генерации связного текста постоянно растет. Настоящая статья продолжает серию из трех статей, посвященных анализу работы моделей генерации текста, созданных для взаимодействий вида «человек-машина».

Сравнение различных архитектур нейронных сетей: что выбрать для своего проекта

2.1 Архитектура Transformer и принцип работы

Sign up for more like this.