×

Samsung представила TRUEBench — собственный бенчмарк для реальной оценки ИИ на 12 языках

Компания Samsung вновь подтвердила свой статус новатора в мире мобильных технологий, представив уникальный инструмент для оценки возможностей искусственного интеллекта — TRUEBench. Этот бенчмарк, разработанный специалистами Samsung Research, стал ответом на недостатки существующих тестов, которые, по мнению компании, слишком ограничены: они в основном ориентированы на английский язык и простые вопросы-ответы, не охватывая реальные сценарии использования.

TRUEBench отличается тем, что охватывает широкий спектр задач, с которыми сталкиваются пользователи и бизнес: от генерации текстов и анализа данных до перевода и создания сложных документов. В тесте собрано 2485 заданий, распределённых по 10 основным направлениям, 46 подкатегориям и 12 языкам. Такой подход позволяет оценить, насколько искусственный интеллект справляется с многоязычными и многоуровневыми задачами, а не только с базовыми диалогами.

Особое внимание уделено системе оценки: она построена на автоматизированной платформе, где искусственный интеллект и эксперты совместно совершенствуют алгоритмы подсчёта баллов. Благодаря этому результаты тестирования становятся максимально объективными и прозрачными. Для желающих проверить свои модели ИИ, Samsung разместила образцы данных и рейтинги на открытой платформе Hugging Face — здесь можно сравнить до пяти различных моделей по эффективности и точности.

По словам технического директора Samsung Electronics Пола Чуна, TRUEBench должен стать новым стандартом для оценки искусственного интеллекта и укрепить позиции Samsung как технологического лидера. Компания уверена, что её опыт внедрения ИИ в реальные продукты позволит задать высокую планку для всей индустрии. Евгений Ивченко

Запись перемещена в архив

Комментариев еще нет

Загрузка...
Нет больше статей