DeepSeek раскрывает модель AI DeepSeek-V3-0324

    0
    1


    Китайский AI Startup Deepseek выпустил свою последнюю языковую модель Deepseek-V3-0324. Он лицензирован под MIT и доступен для бесплатной загрузки на лице объятия. Модель открыта как для личного, так и для коммерческого использования.

    DeepSeek-V3-0324: мощная, но доступная модель

    Transparent deepseek

    DeepSeek-V3-0324-641 гигабайт по размеру. Он эффективно работает на потребительском оборудовании, в том числе Mac Studio с Apple M3 Ultra Chip. Модель имеет 685 миллиардов параметров, что делает ее одной из крупнейших моделей ИИ с открытым исходным кодом.

    Исследователь ИИ Ксеофон считает, что он может конкурировать с Claud Sonnet от Anpropic 3.5. В отличие от сонета, которая требует оплачиваемой подписки, DeepSeek-V3-0324 полностью бесплатный. Это дает ему большое преимущество в доступности.

    Умнее и эффективнее с архитектурой MOE

    v3 0324 benchmark

    DeepSeek-V3-0324 использует смесь архитектуры экспертов (MOE). Вместо того, чтобы активировать все параметры одновременно, он использует только самые релевантные. Из 685 миллиардов параметров только 37 миллиардов активно в любое время.

    Это уменьшает вычислительные требования при сохранении производительности. В тестах DeepSeek-V3-0324 выполнялся так же, как и модели с большими активациями. Это делает его быстрее и эффективнее.

    Новые функции для лучшей производительности

    Модель вводит две ключевые инновации:

    1. Многопользовательское скрытое внимание (MLA): это улучшает то, как модель поддерживает контекст в длинных текстах.
    2. Multi-Token Prediction (MTP): это позволяет сразу же генерировать несколько токенов.

    С этими функциями скорость выходной модели увеличивается на 80%. Исследователь Apple Awni Hannun сообщил, что тесты на Mac Studio показали скорость 20 токенов в секунду.

    Изменение в стиле общения

    Пользователи заметили сдвиг в тоне. У более ранних моделей Deepseek был человеческий, разговорчивый стиль. Новая версия более формальная и техническая. Это делает его идеальным для исследований, кодирования и использования предприятия.

    Влияние DeepSeek на конкурс искусственного интеллекта

    DeepSeek-V3-0324 увеличивает конкуренцию в индустрии искусственного интеллекта. Предлагая мощную, свободную альтернативу моделям на основе подписки, DeepSeek изменяет ландшафт.

    Что вы думаете об этой новой модели? Поделитесь своими мыслями ниже!

    Предыдущая статья4 причины, по которым вы никогда не должны удалять спам (вместо этого сообщайте)
    Следующая статьяЯблоко Watch Ultra 3, чтобы иметь два ключевых улучшения подключения
    Петр Григорин
    Интересуется софтом, разработкой и использование новых приложений, технология искусственного интеллекта. Этот писатель - человек с техническими знаниями, который увлечен разработкой программного обеспечения и использованием новых приложений. Его особенно интересуют технологии искусственного интеллекта и то, как они могут быть использованы для улучшения различных отраслей промышленности и повседневной жизни. Обладая прочной основой в области информатики и острым взглядом на инновации, этот писатель обязательно привнесет ценные идеи и соображения в любую дискуссию на эти темы. Пишет ли он о последних открытиях в области ИИ или исследует потенциал новых программных инструментов, его работа обязательно будет увлекательной и заставляющей задуматься.