Data Governance в ФБР. Перенимаем опыт!
Когда Мария Ворех, директор отдела по обработке и анализу данных, начала работать в ФБР, ее первым заданием была работа над автоматизированной системой дактилоскопического учета - технологией, которую часто показывают в полицейских сериалах и в телевизионных шоу: снимается отпечаток, машина делает свою волшебную работу и через несколько секунд подозреваемый найден.
Система дактилоскопического учета производит поиск не только среди данных ФБР, но и по тем, которые поступают ото всех правоохранительных органов страны. Для их защиты существуют правила, ограничения и политика об использовании и совместном доступе. По словам Ворех, необходимо работать над правилами соблюдения целостности и сохранности персональных данных, но в то же время делать их доступными в течение нескольких секунд для сотрудников правоохранительных органов.
Если полицейский стоит на обочине дороги, у него нет и 5 минут на ожидание ответа. Лишь пара секунд узнать, едет ли в машине мама, опаздывающая на футбол, или парень, которого разыскивают за массовое убийство.
И несмотря на 20-летний опыт работы в области безопасности данных, Ворех постоянно работает над тем, как сделать сервис для пользователей доступным и при этом защитить интересы тех, кто изъявил желание поделиться своими данными.
Мы утонули в данных. Американская онлайн платформа заказа и доставки готовой еды Grubhub получает более 8 000 запросов в минуту, за это же время отправляется 18 млн сообщений, а 45 млн пользователей Google одномоментно работают в поисковике.
Технологии предоставляют больше данных и возможностей, чем когда-либо, но, чтобы понять их смысл, требуется дополнительные уровни технологии и данных. Мы буквально вызываем стремительный рост, но остановить его не можем и не должны.
В 1974 г. в США были приняты законы "О неприкосновенности частной жизни" и "О правах на образование и конфиденциальность семьи", защищающие персональные данных (имя, адрес, дата рождения, номер социального страхования). Позже, в середине 90х, был принят дополнительный законодательный акт, призванный защищать финансовую информацию, а Федеральной торговой комиссии было разрешено контролировать использование этих данных. Недавние акты "Общий регламент по защите данных" и Калифорнийский закон о защите прав потребителей наделяют потребителя или гражданина правом контролировать, как компании используют их персональные данные.
Сейчас ответственность возлагается за неправильное использование данных, за компрометацию, злоупотребление правами на использование данных.
Тем, кто работает с данными, необходимо серьезно задуматься над следующими вопросами:
- Как скажется на человеке, если я использую его данные?
- Создам ли я прецедент?
- Оправдывает ли цель средства?
- Делаю ли я больше хорошего, чем плохого?
Один неверный шаг и доверие клиентов потеряно. Зачастую, если доверие общественности подорвано, работа становится невозможной.
Реальность доверия
Статистика из статьи Дж. Клемента:
- 22% онлайн пользователей заявили, что хранение конфиденциальной информации в сети недостаточно безопасно.
- 40% опрошенных выразили озабоченность по поводу неправильного использования их данных.
- 53% пользователей больше обеспокоены конфиденциальностью информации по сравнению с прошлым годом.
- 24% доверяют правительству защиту персональной информации.
- 66% заявили, что стали больше бояться действий собственного правительства в отношении конфиденциальной информации.
Больше всего Ворех обеспокоена последней цифрой: 66% считают, что она собирается неправомерно использовать их данные. "Что же я должна сделать такого, чтобы убедить их, что собираюсь защитить данные?"
Инновационная технология предоставила беспрецедентные варианты анализа и использования данных. В 2001 г. ФБР, работая над делом Enron, имели в распоряжении несколько гигабайтов данных, для обработки которых было привлечено 100 агентов.
После взрыва во время Бостонского марафона в 2013 г им пришлось работать с терабайтами данных.
К моменту стрельбы в Лас-Вегасе в 2017 г. количество данных превышало петабайт. В процессе расследования использовались некоторые технологии машинного зрения для распознавания изображений и людей, но проблема заключалась в получении непреднамеренных результатов.
Панда или Гиббон?
Трудность таких технологий как машинное обучение, искусственный интеллект и нейросети состоит в их недоказанности. Многое пока невозможно объяснить пользователям и это становится причиной непредвиденных результатов, которые делают эти технологии уязвимыми.
Не так давно был проведен эксперимент с использованием нейросети для определения фотографии панды. Исследователи изменили 0,04% пикселей на изображении, в результате чего нейросеть изменила классификацию с "Панда с уверенностью 57,7%" на "Гиббон с уверенностью 99,3%" Для человеческого глаза подобное изменение незаметно. На картинке по-прежнему изображена панда, но компьютер не согласен.
В такие процессы, как Quality Data и Data Managment необходимо постоянное усовершенствовании алгоритмов, потому что новые технологии, обученные на некачественных данных, дают плохие результаты.
Для новых технологий требуются специально обученные люди, которые понимают ценность данных, как правильно с ними обращаться, как аннотировать метаданные для документирования источника, цели и разрешенного использования. Без этого эта технология всего лишь развлечение.
Безопасность данных vs доступность данных
Ответственность за безопасность данных больше не должна лежать на ИТ-отделе. Защита, контроль доступа, конфиденциальность, соответствие стандартам и сокращение рисков должны быть общими. Инструменты и политики могут облегчить это, но ответственность должна быть разделена в любом случае.
Очень часто ИТ специалистам приходится сталкиваться со следующими требованиями от пользователей:
- Мне нужно больше данных для проведения лучшей аналитики
- Мне нужно сделать визуализацию прямо сейчас
- Мне нужны данные в том формате, который я могу использовать
- Мне необходим доступ на моем личном компьютере, когда я не на работе, а, например, в самолете.
И здесь важен баланс. Нельзя уделять внимание безопасности данных, и игнорировать доступность.
Решение: Data Governance и Data Management
По словам Ворех, Data Governance и Data Management - ключи к достижению баланса между безопасностью и доступностью. Управление и менеджмент предлагают выход:
- Понять, какими данными необходимо управлять и когда.
- Иметь хорошие программы и решения, которые обеспечивают разграничение пользователей.
- Обеспечить процесс управления, который применяет фреймворк для Data Management, обеспечивая принятие открытых и инклюзивных решений.
И первое, что приходит в голову - нанять группу специалистов. Но, если данные некачественные и недоступны им, желаемый результат превратится в группу высокооплачиваемых специалистов и не более того
Купить решение можно, но без представления о том, чем я управляю и зачем, это равносильно тому, если поставить тележку позади лошади.
План, согласованный с бизнесом является ключевым моментом, но так как каждая организация уникальна, вы не можете у кого-то позаимствовать план Data Management.
Когда участники проекта вовлечены в развитие управления, методы Data Management становятся демократичными, а управление принимается в качестве культуры во всей организации. В противном случае вы издаете правила, которым никто не будет следовать.
Успех Ворех в программе управления в ФБР был достигнут благодаря сосредоточенности на миссии и видении организации. Она предложила рассмотреть три вопроса в процессе развития программы Data Governance:
- Что мы как организация?
- Какова наша миссия?
- Чего мы должны достичь через 5 лет по мнению директора?
Получив ответы на эти вопросы, можно расставлять приоритеты в методах Data Management и продвигать те, которые наиболее соответствуют миссии. Начинайте с наиболее важных данных и применяйте стандарты качества, затем уделите внимание соблюдению требований и контролю. Политика без должного контроля и соблюдения требований похожа на записку, которую никто не прочитает. В процессе внедрения этих методик привлекайте представителей бизнеса и других пользователей данными.
Вместо термина "решение вопроса" Ворех использует "открытость", относящийся к процессу выслушивания и решения проблем пользователя. "Моя работа - не навязывать, моя работа - устранять трудности". Важно уметь принимать проблемы в том виде, в котором они описаны пользователем и направлять в сторону их решения.
В прошлом году ФБР объединило несколько команд для решения проблем, связанных с людьми, процессами, возможностями и данными. Среди участников есть специалисты по обработке данных, аналитики, распорядители данных, а также обычные пользователи, юристы, агенты и аналитики разведывательной службы. Всестороннее обсуждение проблем позволяет принимать решения, используя способности людей, обслуживающих, собирающих, использующих и передающих данные ИТ службам.
При отсутствии большого количества средств и персонала Вы не можете решить все проблемы сразу. Идите маленькими шагами, работайте над фундаментом и дайте ему возможность расти, чтобы помочь Вам.