"Минцифры России разработает концепцию доступа к госданным. Возможность создать единую фабрику данных делает государство уникальным оператором, который имеет в своем распоряжении практически неограниченное количество датасетов и их комбинаций. Такие базы представляют интерес для бизнеса, который выстраивает маркетинговые коммуникации и планы развития, опираясь на аналитику датасетов", - сообщил вице-премьер правительства Российской Федерации Дмитрий Чернышенко.
В концепции регулирования доступа разработчиков к наборам госданных фигурирует несколько типов датасетов. Они разделены по признаку конфиденциальности: датасеты ограниченного доступа и общедоступные, по принадлежности оператору: ведомственные, межведомственные.
Директор по направлению "Искусственный интеллект", директор по развитию АНО "Цифровая экономика" Алексей Сидорюк подтвердил, что АНО "Цифровая экономика" работает совместно с Минцифры России в рамках реализации национальной программы "Цифровая экономика", а также по другим направлениям, включая отраслевые и региональные. "Есть ряд вопросов, которые требуют дальнейшей проработки - к самой модели, к вовлечению субъектов РФ, к перечню НПА и другие. Мы договорились о проведении дополнительных экспертных сессий для проработки озвученных вопросов. При этом само создание подобной концепции - большой шаг вперед для отечественного рынка ИИ", - отмечает Алексей Сидорюк.
"На рассмотрение рабочей группы документ поступит в конце мая - начале июня. После чего с заключением участников рабочей группы будет отправлен в правительственную комиссию. Основные разделы - порядок доступа к данным (общедоступные данные и данные ограниченного доступа), перечень нормативно-правовой базы для изменения, дорожная карта по реализации", - поясняет Алексей Сидорюк.
"Общедоступные дата-сеты будут доступны всем разработчикам искусственного интеллекта (ИИ). Ограничения коснутся компаний из других юрисдикций в части данных ограниченного доступа. Порядок доступа к таким данным будет дополнительно согласован совместно с регуляторами. В текущей концепции могут быть предоставлены любые дата-сеты для разработки ИИ, начиная от медицинских обследований и поставленных по ним диагнозов, заканчивая уровнем цен в субъектах РФ и состава почвы для сельскохозяйственных посевов. Для тех дата-сетов, которые будут создаваться вручную под потребности бизнеса, планируется ввести госпошлину за разметку и хранение данных. Вопрос хранения государственных дата-сетов и создания оператора требуют дополнительной проработки и обсуждения", - отмечает Алексей Сидорюк.
Над разработкой единых принципов доступа к государственным датасетам Минцифры России работает совместно с Минэком в рамках реализации федерального проекта "Искусственный интеллект" нацпрограммы "Цифровая экономика".
Заместитель генерального директора Softline по работе с национальными проектами Андрей Шолохов подчеркнул, что в разных странах мира, включая Россию, уже давно существуют практики, когда государство пользуется данными коммерческих компаний (телеком операторы, агрегаторы такси, социальные сети), так и когда коммерческие компании и граждане пользуются государственными данными через посредников (СБИС, "Гарант", "Консультант" и т.д.).
"Иногда некоторые государственные данные нельзя передать в широкое пользование. В таких случаях в мире часто применяются такие инструменты, как регуляторные песочницы. В России также решили пойти по этому пути. Особенностью работы регуляторных песочниц является требование, что компания-участник песочницы должна предоставить план, как она собирается использовать эти данные. Если регулятор согласен на данный вид использования, то государственные данные компании предоставляются", - отмечает Андрей Шолохов.
"В рамках федерального проекта "Искусственный интеллект" министерства и ведомства должны предоставить некие наборы данных для использования как самим государством, так и компаниями – участниками песочниц. Процесс составлен таким образом, что министерства должны сами определять структуру и содержания наборов данных, еще до того, как пользователи данных как среди чиновников, так и среди коммерческих компаний сформулируют какие данные им нужны и с какой целью. Скорее всего эта особенность станет существенным препятствием для полноценного использования государственных данных коммерческими компаниями", - считает Андрей Шолохов.
Заместитель генерального директора по науке и развитию компании ИВК Валерий Андреев уверен, что инициатива разработки концепции регулирования доступа разработчиков к наборам госданных понятна и правильна: "Работа с "живыми" госданными особенно ценна, поскольку дает возможность увидеть реальную картину. Это повышает достоверность исходной информации, точность и скорость анализа и принятия управленческих решений. Но регулирование доступа к таким данным требует тщательнейшей проработки – причем не только технической, но и организационной".
"Прежде всего, необходимо правильно подготавливать госданные для передачи их будущему единому оператору, который упоминается в поручении вице-премьера Дмитрия Чернышенко. Для этого потребуется основательная, кропотливая работа по выравниванию классификаторов. Сегодня каждое ведомство структурирует данные в соответствии с собственными классификаторами. Это не позволяют сразу однозначно идентифицировать номенклатурные позиции, что делает невозможным анализ данных", - отмечает Валерий Андреев.
По мнению Валерия Андреева, структура данных, которыми оперируют разные ведомства, должна быть сравнима – иначе единый оператор не сможет работать с ними. Любой системный интегратор, выполнявший интеграционные проекты, знает на собственном опыте, что привести "к единому знаменателю" классификаторы – это задача колоссальной сложности, считает Валерий Андреев. Обнадеживает, что такой опыт уже частично наработан при создании СМЭВ, государственной системы межведомственного электронного взаимодействия.
"Обязательное условие – определить уровни конфиденциальности данных и обеспечить к ним защищенный доступ. Площадка для работы с данными и средства ИИ должны быть доверенными, а каналы связи – надежно защищенными. Вероятно, было бы слишком опрометчивым решением дать организации, которой будут делегированы полномочия оператора, доступ ко всем реальным "живым" данным. Скорее всего, алгоритм будет предполагать предварительную подготовку ведомствами "дата-сетов", наборов обезличенных данных. Они станут своего рода сырьем для "фабрики данных". Предстоит разработать единые стандарты, положения и нормативные акты подготовки данных и их последующей обработки", - отмечает Валерий Андреев.
"Вся эта работа займет не один год. Некоторая проблема видится в том, что мы подходим к решению задачи с позиций сегодняшнего уровня развития технологий. Но динамика развития ИТ огромна, качественные сдвиги в способах обработки информации происходят очень часто. Не исключено, например, что в ближайшие годы появятся квантовые компьютеры, которые откроют совершенно новые возможности в скорости и точности работы с данными. Поэтому создаваемая система работы с госданными должна изначально строиться на принципах четкой организации межведомственного взаимодействия и на принципах открытости инновационным технологиям", - подчеркивает Валерий Андреев.
Желание государства как главного оператора больших данных обеспечить максимальный маркетинговый эффект от их использования вполне логично в цифровую эпоху, однако возникают опасения за безопасность персональных данных российских граждан, отмечает руководитель отдела аналитики и спецпроектов ГК InfoWatch Андрей Арсентьев.
"Ценность каждой записи персональных данных регулярно растет, и любое крупное хранилище информации становится сокровищницей для нарушителей. Предстоит разработать строгие принципы доступа к различным наборам государственной "фабрики данных", с возможностью контроля этого доступа и защитой от несанкционированного копирования конфиденциальной информации", - подчеркивает Андрей Арсентьев.
Елизавета Неупокоева