Набори даних високої цінності – огляд за допомогою візуалізації

Дата публікації: 23 November 2022 Джерело.

Вступ до наборів даних високої цінності

У світлі зростаючого значення даних Європейська Комісія нещодавно прийняла виконавчий акт, зосереджений на наборах даних високої цінності, 21 грудня 2022 року. Як зазначено як Європейським Парламентом, так і Радою Європейського Союзу, ці набори даних забезпечують важливі переваги для суспільства, навколишнього середовища та економіки. Крім того, як натякає їхня назва, вони є особливо цінними для створення послуг з доданою вартістю, застосунків та, загалом, високоякісних робочих місць для суспільства та ЄС.

Ідентифікація та визначення цих наборів даних високої цінності призводить до значних змін у сфері відкритих даних, оскільки вибрані набори даних будуть доступні у гармонізованих технічних стандартах. Це спрямовано на підвищення їх потенціалу для повторного використання та, отже, їх впливу.

Однак визначення конкретної цінності наборів даних не є тривіальним завданням. Для Комісії було підготовлено дослідження оцінки впливу, яке детально описує список наборів даних високої цінності, які мали бути доступні. Вихідною точкою дослідження була карта всього відповідного законодавства ЄС, що представляє набори даних, які вже були доступні від усіх держав-членів ЄС. Потім було проведено інтерв’ю із зацікавленими сторонами для розробки попереднього списку бажаних наборів даних, які вважалися найбільш цінними з економічної та соціальної точки зору повторного використання.

Крім того, Комісія надала початкову оцінку впливу, спрямовану на інформування громадян та відповідних зацікавлених сторін про свої плани та відкриття для зворотного зв’язку. Документ підкреслив важливість наборів даних високої цінності та необхідність гармонізаційних правил для покращення доступності публічних даних та їх повторного використання.

Ці характеристики допомагають подолати низку бар’єрів, які часто обмежують вільний обіг інформації, таких як високі плати за використання, нечитабельний для машин вміст, обмежувальні ліцензії, погана інтероперабельність або низька доступність через розпорошених власників даних.

У результаті цього процесу було визначено обмежену та чітко визначену групу наборів даних. Вони спрямовані на надання максимального значення своїм користувачам і будуть доступні для використання без будь-яких технічних, юридичних чи фінансових перешкод.

Ці набори даних перераховані у відповідному виконавчому регламенті і згруповані в список із шести тематичних категорій наборів даних високої цінності: геопросторові дані, дані спостереження за Землею та навколишнім середовищем, метеорологічні дані, статистичні дані, дані про компанії та власність компаній, а також мобільність.

У цьому контексті чинне законодавство ЄС є важливим орієнтиром у виборі наборів даних у всіх шести тематичних категоріях. Перші рекомендації щодо PSI (Public Sector Information – Інформація державного сектору) в ЄС були вироблені у 1989 році, і з того часу було прийнято кілька політичних документів, досліджень та подальшого законодавства. Більш конкретно, PSI регулювався першою директивою PSI у 2003 році, директивою 2007 року про створення інфраструктури просторової інформації в Європейському співтоваристві (INSPIRE), другою директивою PSI у 2013 році, загальним регламентом захисту даних 2016 року і, нарешті, останньою та третьою директивою PSI 2019 року, перейменованою на директиву про відкриті дані. Директиви PSI були важливими для гармонізації PSI, доступних для публіки, підвищення прозорості та впровадження низки заходів (таких як використання читабельних для машин форматів або центральних сховищ), щоб полегшити виявлення та повторне використання інформації, створеної державними органами. Цей новий виконавчий акт, що встановлює набори даних високої цінності, стане кульмінацією процесу, розробленого протягом кількох років.

Макрохарактеристики наборів даних високої цінності

Огляд літератури, проведений щодо цих тематичних категорій, виявив кілька макрохарактеристик, які надають їм потенційну цінність. Ці макрохарактеристики включають:

• економічні вигоди;

• екологічні вигоди;

• соціальні вигоди;

• генерацію інноваційних послуг та інновацій (інновації та штучний інтелект (ШІ));

• повторне використання; та

• покращення, зміцнення та підтримку державних органів у виконанні їхніх завдань (державні послуги та державне управління, соціальні аспекти).

Кожен з цих аспектів може допомогти по-своєму. Дані про зміну клімату та навколишнє середовище спрямовані на використання інформації для покращення екологічних умов і боротьби зі зміною клімату. Приватний сектор може створювати високоякісні та гідні робочі місця, використовуючи економічні дані, тоді як інновації та дані ШІ можуть допомогти розробляти нові додатки, пов’язані з алгоритмічним прийняттям рішень. Надавання державних послуг можна покращити за допомогою відкритих даних, маючи на меті підвищення якості, доступності та ефективності. Розширення повторного використання даних корисне для всіх зацікавлених сторін, оскільки дозволяє максимально ефективно використовувати інформацію, що вже була створена в минулому.

Ці шість макрохарактеристик розподілені на 32 категорії цінності, які підтримуються загалом 126 кількісними та якісними показниками. Через ці критерії було оцінено додану вартість кожної з тематичних категорій. Більш конкретно, було враховано походження даних, тему охоплення та соціальний вплив даних, разом з важливими технічними та юридичними особливостями.

Загальні характеристики наборів даних високої цінності

За деякими винятками, набори даних високої цінності характеризуються специфічними технічними та юридичними вимогами. Вимоги щодо відкритої ліцензії на дані, наявності публічної документації та забезпечення машиночитаності є обов’язковими для цих наборів даних. Крім того, набори даних високої цінності повинні бути доступними для завантаження в масовому обсязі (де це доцільно) і через інтерфейси прикладного програмування (API) безкоштовно, а також надавати розгорнуту документацію щодо їх метаданих.

Набори даних високої цінності на практиці

Для кращого розуміння наборів даних високої цінності на практичному рівні, у додатку до виконавчого регламенту Комісії наводяться кілька прикладів. Геопросторові набори даних включають поштові коди, національні та місцеві карти. Енергетичні ресурси та покриття земель є частиною наборів даних високої цінності, що стосуються спостереження за Землею та навколишнім середовищем. Метеорологічні дані включають дані з місцевих інструментів та прогнози погоди, а демографічні та економічні показники є частиною наборів даних високої цінності зі статистики. Крім того, реєстри бізнесу та інформація про реєстраційні ідентифікатори є частиною даних про компанії та власність компаній, а статистика мобільності включає інформацію, пов’язану з транспортними мережами та внутрішніми водними шляхами.

Ці приклади наборів даних є частиною кількох наборів даних високої цінності, спеціально визначених різними законодавчими актами, такими як директиви та регламенти. Наприклад, набори даних зі спостереження за Землею та навколишнім середовищем включають дані про повітря, що підпадають під дію статей 6-14 Директиви 2008/50/EC та статті 7 Директиви 2004/107/EC. Це законодавство регулює енергетику, клімат та якість повітря. Інші приклади регламентів, що стосуються цих категорій, включають збереження природи та біорізноманіття (Директива 2009/147/EC, Директива Ради 92/43/EEC та Регламент (ЄС) 1143/2014), шумове забруднення (Директива 2002/49/EC) та управління відходами (Директива Ради 1999/31/EC, Директива 2006/21/EC, Директива Ради 86/278/EEC та Директива Ради 91/271/EEC).

Набори даних високої цінності в деталях: геопросторові набори даних

Геопросторові дані надають цікавий попередній огляд того, що охоплюють набори даних високої цінності. Як показано в додатку до виконавчого регламенту Комісії, геопросторова тематична категорія включає набори даних у межах тем INSPIRE. Директива INSPIRE створила інфраструктуру просторової інформації та Європейської Спільноти, визначаючи адміністративні одиниці, географічні назви, адреси, будівлі, кадастрові ділянки, довідкові ділянки та сільськогосподарські ділянки.

Гранулярність цих наборів даних має високу варіативність. Для адміністративних одиниць усі рівні узагальнення доступні до рівня масштабу 1:5 000. Для контексту, це включає дані від муніципалітетів до цілих країн. Подібний масштаб застосовується до будівель і кадастрових ділянок, тоді як довідкові та сільськогосподарські ділянки можуть використовувати дещо різні рівні. Таким чином, географічне покриття дозволить охопити всю країну, використовуючи один або кілька об’єднаних наборів даних.

Інформація, що міститься в цих наборах даних, належить до конкретної галузі, і потребуватиме унікального атрибута, який дозволить її ідентифікувати. Наприклад, адміністративні одиниці можуть мати ідентифікаційний або код країни, тоді як будівлі можуть використовувати специфічну геометрію, що виступає як контур будівлі.

Як вже згадувалося, набори даних високої цінності визначені законодавством, і геопросторові дані не є винятком. Наприклад, теми даних INSPIRE визначені в Додатку I до Директиви 2007/2/EC, разом із довідковими та сільськогосподарськими ділянками, як визначено в Регламенті (ЄС) № 1306/2013 та Регламенті (ЄС) № 1307/2013 і пов’язаних делегованих та виконавчих актах, що визначають їхню гранулярність та географічне покриття та перелік деяких або всіх ключових атрибутів.

Висновок та майбутні розробки

Новий виконавчий акт про набори даних високої цінності є важливим кроком у покращенні розповсюдження та повторного використання інформації, створеної державними адміністраціями в ЄС. Як державні, так і приватні підприємства можуть отримати вигоду від доступу до добре задокументованої, безкоштовної статистики щодо найважливіших тем, які будуть визначати суспільну дискусію в найближчі роки.

Як показали численні дослідження, попереднє законодавство мало значний позитивний економічний вплив. Новий виконавчий акт відкриє доступ до інших важливих наборів даних, ще більше розширюючи можливості використання інформації та забезпечуючи відповідність даних, створених державними органами, швидким технологічним змінам.

Набори даних високої цінності та їх шість тематичних категорій стануть основою для серії історій, підкріплених візуалізацією даних, які будуть опубліковані на data.europa.eu.