PyPI прощается со всеми данными об IP-адресах, насколько это возможно

    0
    6


    PyPI, индекс пакетов Python, начал оценивать способы уменьшения объема идентифицирующей информации, которую он хранит, еще до того, как Министерство юстиции США запросило данные о подозрительных пользователях.

    Но теперь, когда репозиторий кода сообщил о получении трех повесток в суд для получения данных о пяти пользователях в начале этого года, реестр пакетов сообщества Python хочет, чтобы разработчики поняли, что он работает над минимизацией пользовательских данных, которые он хранит.

    Цель состоит не в том, чтобы быть не в состоянии ответить на законные запросы информации; скорее, он должен хранить только минимальный объем данных, необходимый, чтобы не подвергать пользователей ненужному вторжению в частную жизнь.

    Насколько нам известно, RubyGems не получала повесток в суд на пользовательские данные.

    По совпадению, минимизация данных может помешать организациям стать предпочтительным источником слежки по запросу: наличие чрезмерных объемов информации о пользователях вызывает юридические требования, с которыми затем должен справиться персонал.

    Хотя запросы данных от властей являются обычным явлением среди крупных коммерческих интернет-сервисов, таких как GitHub, мы не знаем о предыдущих публичных отчетах о повестках в суд, адресованных реестрам пакетов программного обеспечения с открытым исходным кодом.

    Самуэль Гиддинс, который помогает поддерживать RubyGems, сказал: Регистр«Насколько нам известно, RubyGems не получала повесток в суд на пользовательские данные».

    Майк Фидлер, член команды администраторов PyPI, заявил в пятницу, что усилия организации по улучшению конфиденциальности и безопасности пользователей восходят к 2020 году.

    После получения повесток в марте и апреле эти усилия активизировались.

    Большая часть беспокойства сосредоточена на данных IP-адреса, которые сохраняются вместе с доступом к веб-журналу; пользовательские события, такие как вход в систему; события проекта, включая загрузки; события, связанные с недавно введенными организациями; и административные записи журнала PyPI.

    По словам Фидлера, PyPI смогла прекратить хранение данных IP для записей журнала — журнала транзакций только для добавления — потому что они были доступны только администраторам.

    «Другие места, где нам в настоящее время все еще нужны IP-данные, включают ограничение скорости и запасные варианты, пока мы не заполним IP-данные хэшами и геоданными», — сказал Фидлер. «Наш современный подход эволюционировал от использования данных IP во время отображения для поиска соответствующих геоданных до хранения геоданных непосредственно в базе данных».

    Чтобы скрыть IP-адреса, PyPI «солит» их, добавляя произвольное значение, а затем хеширует — пропускает данные через функцию одностороннего скремблирования, которая создает значение, называемое хэшем. Это дает возможность хранить ссылку на потенциально идентифицирующие данные без фактического сохранения необработанных данных.

    Фидлер объясняет, что, хотя хеширование должно быть необратимым, все же можно отменить хэши IP-адресов методом грубой силы, поскольку известное адресное пространство очень мало.

    «Применяя соль, мы требуем, чтобы кто-то обладал как солью, так и хешированными IP-адресами, чтобы перебрать значение», — сказал он. «Наша соль не хранится в базе данных, в то время как хешированные IP-адреса хранятся, мы защищаем от утечек, раскрывающих эту информацию».

    PyPI использует своего провайдера CDN Fastly для передачи соленого хэша IP-адреса для запросов через настраиваемый заголовок вместе с широкими данными GeoIP (страна и город, где находится пользователь) и использует их вместо необработанных данных. Айпи адрес.

    В апреле реестр принял изменения кода для хеширования и добавления солей IP-адресов для запросов, которые PyPI обрабатывает непосредственно в Warehouse — веб-приложении, реализующем официальный индекс пакетов Python.

    И за последние несколько дней он заменял IP-адреса в пользовательском интерфейсе PyPI данными геолокации.

    PyPI по-прежнему использует информацию об IP-адресах для выявления злоупотреблений — создания вредоносных пакетов, домогательств и т. д. — но Фидлер говорит, что даже это рассматривается. «Мы думаем, как справиться с этим, не сохраняя IP-данные, но мы еще не достигли этого», — сказал он.

    Фидлер говорит, что команда PyPI будет взвешивать, сможет ли она удалить данные IP из записей истории событий через определенный период времени и сможет ли служба обрабатывать все свои запросы через CDN.

    Однако это может просто подтолкнуть червей к конфиденциальности вверх по течению до Fastly. Регистр спросил Fastly, получил ли он повестку в суд для данных IP-адреса PyPI. Мы не получили ответа. ®

    Предыдущая статьяSamsung Карты microSD получают огромные скидки до 55%
    Следующая статьяiOS 16.5 убивает iPhone батарея? Вот все об этом
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.