Samsung представила TRUEBench — собственный бенчмарк для реальной оценки ИИ на 12 языках

Компания Samsung вновь подтвердила свой статус новатора в мире мобильных технологий, представив уникальный инструмент для оценки возможностей искусственного интеллекта — TRUEBench. Этот бенчмарк, разработанный специалистами Samsung Research, стал ответом на недостатки существующих тестов, которые, по мнению компании, слишком ограничены: они в основном ориентированы на английский язык и простые вопросы-ответы, не охватывая реальные сценарии использования.

TRUEBench отличается тем, что охватывает широкий спектр задач, с которыми сталкиваются пользователи и бизнес: от генерации текстов и анализа данных до перевода и создания сложных документов. В тесте собрано 2485 заданий, распределённых по 10 основным направлениям, 46 подкатегориям и 12 языкам. Такой подход позволяет оценить, насколько искусственный интеллект справляется с многоязычными и многоуровневыми задачами, а не только с базовыми диалогами.

Особое внимание уделено системе оценки: она построена на автоматизированной платформе, где искусственный интеллект и эксперты совместно совершенствуют алгоритмы подсчёта баллов. Благодаря этому результаты тестирования становятся максимально объективными и прозрачными. Для желающих проверить свои модели ИИ, Samsung разместила образцы данных и рейтинги на открытой платформе Hugging Face — здесь можно сравнить до пяти различных моделей по эффективности и точности.

По словам технического директора Samsung Electronics Пола Чуна, TRUEBench должен стать новым стандартом для оценки искусственного интеллекта и укрепить позиции Samsung как технологического лидера. Компания уверена, что её опыт внедрения ИИ в реальные продукты позволит задать высокую планку для всей индустрии. Евгений Ивченко

Запись перемещена в архив

Compal показала на CES 2026 ИК-камеру в связке с радаром для ночного AEB: все подробности

В автосалоне разъяснили, как перекупы обманывают толщиномеры китайской шпаклевкой

Обновленный Mercedes EQS 2027 заметили на зимних тестах: электроседан показали на фото

Автоэлектрик объяснил, какую клемму нужно снять с аккумулятора первой, чтобы не навредить машине

Кибертехник выяснил, будет ли работать мессенджер MAX без SIM-карты

Консультант по IT научил подключать Wi-Fi к телефону на Android

Владелец мастерской перечислил масла, которые не подделывают в России

Автодилер рассекретил, почему двигатели от Kia и Hyundai стали худшими в мире

Samsung представила TRUEBench — собственный бенчмарк для реальной оценки ИИ на 12 языках

Комментариев еще нет