Как отмечает Алексей Артамонов, классические подходы к хранению и анализу данных часто оказываются неэффективными при работе с разнородными, постоянно обновляемыми источниками информации. Текст научной статьи — это не изолированный набор слов, а сложная система взаимосвязей между авторами, организациями, тематиками, результатами экспериментов и цитируемыми работами. «Если мы хотим извлекать из таких массивов не просто статистику, а новые предметные знания, необходим иной методологический уровень», — подчёркивает учёный.
В результате проведенных исследований был создан «универсальный цифровой конструктор», предлагающий различные наборы инструментов и моделей для каждого типа данных (будь то патенты, статьи или посты). При этом, важно, что Алексей Артамонов предлагает единую модель цифрового объекта, в рамках которой любой информационный объект описывается одинаково: у него есть статические свойства (например, дата рождения или автор), динамические (частота публикаций), и вычисляемые (индекс цитируемости). К этому добавляется граф связей с другими объектами. Такая структура обеспечивает единое представление данных из разных источников, повышает точность и воспроизводимость аналитических результатов и служит основой для построения гибких алгоритмов обработки.
Второй ключевой компонент системы — разработанный комплекс методов преобразования исходной информации. Эти инструменты автоматически извлекают из исходного текста научных статей структурированные данные: физические величины с приведением к единой системе СИ, координаты организаций по аффилиациям авторов, ключевые термины, содержимое таблиц и подписей к рисункам, а также данные о международном сотрудничестве на основе анализа стран-соавторов. В результате исходный массив документов превращается в обогащённую базу знаний, пригодную для количественного и качественного анализа.
Важным элементом системы являются специализированные программные средства визуализации. В частности, реализован инструмент построения гетерогенных графов, позволяющий наглядно отображать связи между публикациями, авторами, организациями и тематиками, выявляя неочевидные кластеры и скрытые закономерности.
Разработана также методика построения научно-технологических ландшафтов (НТЛ) — трёхмерных интерактивных карт, по осям которых откладываются научные направления, временные интервалы и объёмы публикационной активности. Такие ландшафты дают возможность сравнивать динамику развития различных областей науки по странам и организациям, определять точки роста и оценивать эффективность международной кооперации. По словам разработчиков, подобные инструменты востребованы при принятии управленческих решений на государственном уровне, в том числе в рамках национальных проектов технологического лидерства.
В ближайшей перспективе учёные МИФИ планируют углублённую интеграцию в систему современных нейросетевых моделей. На текущем этапе применяются классические методы машинного обучения и обработки естественного языка, которые эффективны для структурирования фактов, выделения ключевых слов и нормализации величин. Следующим шагом станет переход к тонкому семантическому анализу. «Мы хотим, чтобы система не просто находила числовые значения в тексте, а понимала контекст: различала, когда автор сообщает о результатах собственного эксперимента, а когда цитирует чужую работу; улавливала нюансы тональности в социальных данных; выявляла скрытые взаимосвязи между событиями, которые не лежат на поверхности», — поясняет Алексей Артамонов. Также планируется расширение спектра предметных областей, доступных для анализа (сейчас система апробирована на атомной энергетике, медицине и финансовой безопасности).
Алексей Артамонов подчеркивает, что система создана в рамках научной школы, возникшей в последние десятилетия на кафедре анализа конкурентных систем института международных отношений НИЯУ МИФИ. С 2008 года на кафедре проводятся работы по разработке мультиагентных систем обработки научно-технической информации, в рамках которой разрабатываются принципиально новые методы, алгоритмы и программные средства потоковой обработки, анализа, визуализации и доставки целевой информации для различных пользователей.