Cerebras устанавливает рекорд по самой большой модели ИИ на одном чипе

    0
    6


    Американский аппаратный стартап Cerebras утверждает, что обучил самую большую модель ИИ на одном устройстве, оснащенном самым большим в мире чипом Wafer Scale Engine 2 размером с тарелку.

    «Используя программную платформу Cerebras (CSoft), наши клиенты могут легко обучать современные языковые модели GPT (такие как GPT-3 и GPT-J) с использованием до 20 миллиардов параметров в одной системе CS-2, “, – заявила компания на этой неделе. «Эти модели, работающие на одном CS-2, настраиваются за несколько минут, и пользователи могут быстро переключаться между моделями всего несколькими нажатиями клавиш».

    CS-2 содержит колоссальные 850 000 ядер и имеет 40 ГБ встроенной памяти с пропускной способностью 20 ПБ/с. Спецификации других типов ускорителей искусственного интеллекта и графических процессоров меркнут по сравнению с ними, а это означает, что инженеры по машинному обучению должны обучать огромные модели искусственного интеллекта с миллиардами параметров на большем количестве серверов.

    Несмотря на то, что Cerebras, очевидно, удалось обучить самую большую модель на одном устройстве, ему все равно будет сложно завоевать крупных клиентов ИИ. Сегодня крупнейшие системы нейронных сетей содержат от сотен миллиардов до триллионов параметров. На самом деле для обучения этих моделей потребуется гораздо больше систем CS-2.

    Инженеры по машинному обучению, скорее всего, столкнутся с теми же проблемами, с которыми они уже сталкивались при распределении обучения по многочисленным машинам, содержащим GPU или TPU, — так зачем переключаться на менее знакомую аппаратную систему, которая не имеет такой большой поддержки программного обеспечения?

    Сюрприз, сюрприз: робот, обученный на данных из Интернета, оказался расистом и сексистом

    Робот, обученный на ошибочном наборе данных, извлеченном из Интернета, в ходе эксперимента продемонстрировал расистское и сексистское поведение.

    Исследователи из Университета Джона Хопкинса, Технологического института Джорджии и Вашингтонского университета поручили роботу сложить блоки в коробку. На блоки были наклеены изображения человеческих лиц. Роботу было дано указание упаковать кубик, который, по его мнению, был врачом, домохозяйкой или преступником, в цветную коробку.

    Робот был оснащен моделью компьютерного зрения на основе CLIP, часто используемой в системах преобразования текста в изображение. Эти модели обучены тому, чтобы изучать визуальное сопоставление объекта с его словесным описанием. Получив заголовок, он может сгенерировать изображение, соответствующее предложению. К сожалению, эти модели часто демонстрируют те же ошибки, что и их обучающие данные.

    Например, робот с большей вероятностью идентифицировал блоки с женскими лицами как домохозяек или больше ассоциировал чернокожих лиц с преступниками, чем белых мужчин. Устройство также, казалось, нравилось женщинам и людям с более темной кожей меньше, чем белым и азиатским мужчинам. Хотя исследование является всего лишь экспериментом, развертывание роботов, обученных на ошибочных данных, может иметь последствия в реальной жизни.

    «Возможно, дома робот берет белую куклу, когда ребенок просит красивую куклу», — сказала Вики Зенг, аспирантка, изучающая информатику в Университете Джона Хопкинса. «Или, может быть, на складе, где есть много продуктов с моделями на коробках, вы можете представить, как робот чаще тянется к продуктам с белыми лицами на них».

    Выпущена крупнейшая языковая модель с открытым исходным кодом

    На этой неделе российский интернет-бизнес «Яндекс» опубликовал код языковой модели со 100 миллиардами параметров.

    Система под названием YaLM была обучена на 1,7 ТБ текстовых данных, взятых из Интернета, и для вычислений требовалось 800 графических процессоров Nvidia A100. Интересно, что код был опубликован под лицензией Apache 2.0, что означает, что модель можно использовать в исследовательских и коммерческих целях.

    Академики и разработчики приветствовали усилия по воспроизведению и открытию исходных кодов больших языковых моделей. Эти системы сложно построить, и, как правило, только крупные технологические компании имеют ресурсы и опыт для их разработки. Они часто являются собственностью, и без доступа их трудно изучать.

    «Мы искренне верим, что глобальный технологический прогресс возможен только благодаря сотрудничеству», — сказал представитель Яндекса. Регистр. «Большие технологические компании многим обязаны открытым результатам исследователей. Однако в последние годы современные технологии НЛП, включая большие языковые модели, стали недоступны для научного сообщества, так как ресурсы для обучения доступны лишь к большой технике».

    «Исследователям и разработчикам во всем мире нужен доступ к этим решениям. Без новых исследований рост пойдет на спад. Единственный способ избежать этого — поделиться передовым опытом с сообществом. Делясь нашей языковой моделью, мы поддерживаем темпы развития глобальное НЛП».

    Instagram будет использовать ИИ для проверки возраста пользователей

    Родительский бизнес Instagram, Meta, тестирует новые методы проверки своих пользователей от 18 лет, включая использование ИИ для анализа фотографий.

    Исследования и неофициальные данные показали, что использование социальных сетей может быть вредным для детей и подростков. Пользователи Instagram указывают свою дату рождения, чтобы подтвердить, что они достаточно взрослые, чтобы использовать приложение. Вам должно быть не менее 13 лет, а для лиц моложе 18 действуют дополнительные ограничения.

    Теперь его материнская компания Meta пробует три разных способа подтвердить, что кому-то больше 18 лет, если он изменит дату своего рождения.

    «Если кто-то попытается изменить дату своего рождения в Instagram в возрасте от 18 до 18 лет и старше, мы потребуем от него подтвердить свой возраст одним из трех способов: загрузить свое удостоверение личности, записать видео-селфи или попросить общих друзей. чтобы подтвердить их возраст», — объявила компания на этой неделе.

    Meta заявила, что сотрудничает с Yoti, платформой цифровой идентификации, для анализа возраста людей. Программное обеспечение Yoti тщательно изучит изображения из видеоселфи, чтобы предсказать чей-то возраст. Мета сказал, что Yoti использует «набор данных анонимных изображений разных людей со всего мира».

    Исследователи говорят, что GPT-4chan был плохой идеей

    Сотни ученых подписали письмо, осуждающее GPT-4chan, языковую модель ИИ, обученную более чем 130 миллионам постов на печально известной ядовитой доске сообщений в Интернете 4chan.

    «Большие языковые модели и, в более общем плане, базовые модели — это мощные технологии, которые несут в себе потенциальный риск значительного вреда», — начинается письмо, написанное двумя профессорами Стэнфордского университета. «К сожалению, нам, сообществу ИИ, в настоящее время не хватает норм сообщества в отношении их ответственной разработки и развертывания. Тем не менее, для членов сообщества ИИ важно осудить явно безответственные действия».

    Эти типы систем обучаются на большом количестве текста и учатся имитировать данные. Накормите GPT-4chan тем, что выглядит как разговор между пользователями сети, и он продолжит добавлять в смесь больше фальшивых сплетен. 4chan известен своими смягченными правилами модерации контента: пользователи анонимны и могут публиковать что угодно, если это не противоречит закону. Неудивительно, что GPT-4chan также начал извергать текст с аналогичным уровнем токсичности и содержания. Когда его запустили на 4chan, некоторые пользователи не были уверены, бот это или нет.

    Теперь эксперты обвинили его создателя, ютубера Янника Килчера, в безответственном развертывании модели. «Можно представить разумный кейс для обучения языковой модели на токсичной речи — например, для обнаружения и понимания токсичности в Интернете или для общего анализа. Однако решение Килчера развернуть этого бота не проходит никакой проверки на разумность. «Его действия заслуживают порицания. Он подрывает ответственную практику науки об искусственном интеллекте», — говорится в письме. ®

    Предыдущая статьяОжидается, что индийские технические таланты в значительном количестве мигрируют в
    Следующая статьяКак изменить часы экрана блокировки на Android 12
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.