Инструментальная система анализа, наблюдения и прогнозирования информационного поля

Введение

Открытая печать традиционно являлась и является самым емким и наиболее используемым каналом получения информации. 

Информационный поток сегодня неизмеримо более плотный, времени на принятие решения существенно меньше. Однако, несмотря на наличие множества эффективных методик по анализу информационного поля, адекватного сегодняшним потребностям (в координатах время/точность) инструментария для проведения оперативного анализа и выдвижения гипотез о развитии ситуации нет. “Нет” именно как комплексного, единого решения, способного работать как в жестких по требованию ограничениях на плотность потока, так и в крайне жестких временных рамках. Часть задач, требующих решения, находится в стадии экспериментов и теоретических исследований. Часть – не удовлетворяет по тактико-техническим характеристикам.

Настоящий документ описывает концепцию системы анализа, наблюдения и прогнозирования изменений на основе мониторинга информационного поля по открытым источникам информации.

Проблема

Основой и предпосылками создания обсуждаемой далее системы являются следующие факторы:

1) Около 80% “конечной” содержательной информации содержится в открытых источниках информации.

2) Большая часть закрытой информации также содержится в неструктурированном виде – отчеты, рапорты, сводки.

3) По опытным данным, максимальное количество текстовых документов, которые способен обработать “оператор” без заметного ухудшения качества составляет 300-500 документов в день. При информационном потоке более 15-20 тыс. документов традиционные методы аналитико-прогностической обработки просто не справляются даже при существенном распараллеливании задачи по операторам (особенно при требуемых временах готовности результата – часы).

4) Извлечение сложных, неявных зависимостей требует привлечения экспертов в предметных областях; однако в условиях однородного по интенсивности информационного потока априорное привлечение экспертов невозможно – просто неизвестно, какой эксперт потребуется в следующую минуту. Кроме того, всегда остается проблема субъективности эксперта. А в условиях жестких временных ограничений – еще и проблема ошибки эксперта.

5) Прогнозирование развития ситуации, в том числе и кризисной, требует механизма оперативного порождения и верификации гипотез о дальнейшей траектории развития событий. Причем экспертная оценка в этих условиях также не спасает – скорость порождения и опровержения гипотез должна соответствовать скорости поступления информации. Как следствие – сужение фокусировки, невозможность многовариантного перебора гипотез и потенциальных решений, неоптимальное управляющее воздействие в итоге.

6) Массив информации растет и достижим для экспертных оценок даже с помощью современных СУБД и традиционных компьютерных методах поиска информации только при ограничениях: 

– либо количества гипотез (экспертное решение)

– либо количества источников (экспертное решение или техническая возможность)

7) Системы построения прогнозов и “жизни” гипотез не создано.

Зачем это нужно (мотивационная установка)

В первую очередь потому, что сегодняшний мир живет в значительной мере в информационной среде. И эффективность информационных войн уже является экспериментально доказанным фактом. Примером тому могут служить: инфовойны США в период Югославского и Иракского кризисов; инфовойны чеченских боевиков, особенно в период первой Чеченской войны. 

Блестящим примером инфовойны в других областях может служить “дело ЮКОСа” – в котором силовые методы эффективно были дополнены работой в инфополе, несмотря, кстати, на профессиональное противодействие.

Следующим немаловажным мотивом служит то, что сегодняшнее информационное пространство за счет своей оперативности и в значительной мере – бесконтрольности, оказывается хранилищем разнородной информации о связях и интересах фигурантов, включая не только политиков и бизнесменов, но и криминальных фигурантов, террористов. Однако именно оперативность этой среды предполагает столь же оперативное реагирование на изменения инфополя.

Зачем это нужно (целевая установка)

В плане практической работы очень важно, чтобы существовал замкнутый цикл подготовки материалов, начиная от процедуры определения показателей сбора информации, ее классификации, автоматизированной обработки и заканчивая ее анализом, разработкой прогнозов и практических рекомендаций. 

Именно такая функциональная связность, замкнутость, позволяет правильно интерпретировать и принимать решение в предметной области. 

В западной литературе процессы, описывающие сбор, обработку, анализ и распространение целевой информации среди потребителей принято называть разведывательным циклом. Разведывательный цикл принято делить на пять составных частей: 
– Планирование и целеуказание – составление “заданий разведке”, подготовка плана сбора информации, отдача приказа исполнителям задания и контроль за ходом его выполнения; 
– Сбор – добывание информации и передача ее в руки специалистов для обработки;
– Обработка – первичная обработка собранной информации, придание ей определенной формы (может включать, например, лингвистический перевод или переформатирование компьютерных данных). В частности, к задачам обработки относится “свертка” информационного пространства;
– Оценка – превращение собранной “сырой” информации в данные разведки (путем обобщения, анализа и синтеза, всесторонней оценки и интерпретации всех имеющихся данных) в соответствии с требованиями заказчика (потребителя); к этой же части относится порождение гипотез, их верификация, выбор наиболее вероятного пути развития анализируемой ситуации (прогностика);
– Распространение – пересылка данных разведки потребителям. 

В силу этого, система представляет собой комплекс подсистем, каждая из которых инструментально поддерживает часть разведывательного цикла.

В прикладном аспекте создание подобной инструментальной системы позволит решить следующие задачи:
1) Оценка источников
– Контент (частотный) анализ сообщений, в частности, частотный анализ лексики (групповой, корпоративной, партийной и т.д.)
– Диагностика авторства (определение ньюсмейкера; в частности, диагностика “схожести” сообщений ньюсмейкеров – поиск содержательных “дублеров”, “плагиаторов”)
– Диагностика видовых характеристик текста (новость, аналитическое сообщение, прямая речь, доклад, и т.п.)
– Диагностика эмоционально-оценочных категорий в тексте применительно к задаваемым пользователям темам.
2) Кризисное управление
– Сократить время, необходимое для диагностики кризиса.
– Определить во времени, близком к реальному, индикаторы кризиса.
– Провести сравнительный анализ как индикаторов, так и трендов (“чем набор индикаторов перед взрывом в Оклахоме отличается от набора индикаторов перед взрывом в Волгодонске”)
– На основе сравнительного анализа индикаторов выработать временные тренды ранее имевших место схожих кризисов (составить “календарь кризиса”).
– Провести календарное планирование воздействий (событий, мероприятий) с учетом как “кризисных календарей”, так и текущих, оперативных календарей.
3) Свертывание информационного поля
– Классификация (сортировка) потока по темам – тематическая параметризация информационного поля. Выявление тематических ассоциаций для задач политического планирования и проектирования (выстраивание ассоциативного ряда при подготовке документов).
– Выстраивание сетей связей, как фактографических, так и ассоциативных. Ассоциативный поиск – с какими темами ассоциирована, например, тема “трудоустройство молодежи”. При этом есть также возможность анализировать мощность связи, мощности ассоциированных кластеров документов (число вхождений документов в тот или иной тематический кластер).
– Фактографические сети связи – совместная упоминаемость “фактов”, например – сеть связей упоминания персон или совместное упоминание юридических лиц. Другой пример – факт “хищение оружия” связан с (временные характеристики связи не обсуждаются) фактом “вооруженный теракт”
– Выявление референтных групп по источникам и ньюсмейкерам (поиск контекстной коррелянтности: семантика выступлений, интервью ньюсмейкера “А” с долей 80% схожа с семантикой ньюсмейкера “В”)
– Поиск индикаторов – совокупности тем и их взаимосвязей, возникающих в анализируемой выборке СМИ и являющихся характерными признаками при возникновении той или иной ситуации или событии.
– Отслеживание изменений в заданных параметрах и темах (“Украина”, “Военные действия”, “Ирак”, “Путин”). Частный случай – отслеживание “дрейфа” семантических структур, связанных с некоторой мегатемой. Пример – изменение лексики и ассоциативных связей по мегатеме “неуставные отношения” – снижение относительной доли “дедовщина”, возрастание относительной доли “офицеры”.
– Тематическое и персонофицированное отслеживание ньюсмейкеров – параметризация информационного поля по его источникам.
4) Календарное планирование
– Календарное планирование и построение точек (дат) возможных всплесков поля.
– Одновременное автоматическое календарное построение из текущего календаря и суммы календарей-схем ситуаций (региональные выборы, президентские выборы, досрочный роспуск Госдумы) с отсечением или обозначением невозможных вариантов (отказ строить систему роспуска ГД за 7 месяцев до выборов по решению президента).
– Автоматической выдачи “ретроспективных знаний” к будущей календарной ситуации по мощности отслеживаемых тем.
5) Порождение гипотез
– Сравнение схожих срезов на текущий момент и построение гипотез (например, на основании схожести суммы параметров и индикаторов в августе 1998 г, будет выдан прогноз на кризис).
– Генерации гипотез последовательности действий в разных полях (статья в России – статья в Америке).
– Получение первичной информации для прогнозирования и моделирования реакции информационного поля на проектируемое событие.

История вопроса и аналоги

Технологическое обеспечение информационно-аналитической деятельности подразумевает не столько наличие компьютеров, сетей и средств связи, хотя это и является необходимым условием существования, сколько наличие в той или иной мере продуманной программной среды, позволяющей накапливать, обрабатывать и искать необходимую информацию в автоматизированном режиме. 

К сожалению, говорить о каком-то значительном продвижении в автоматизации аналитической работы не приходится. Да, действительно – существуют методики теории размытых множеств и нечеткой логики, которые позволяют строить математические модели отдельных событий. Так, например, на основе выборки избирательных предпочтений электората строят достаточно реальные прогнозы голосования в том или ином субъекте федерации. Однако социально-политическая ситуация очень сильно зависит от субъективных, личностных факторов и сложных социальных взаимодействий, природа которых далеко не всегда понятна и прогнозируема. 

Кроме того, индивидуальное прочтение одного-двух текстов не дает возможности оценить того, что показывает анализ целого массива. В любом случае для качественного анализа необходимо наличие достаточно большого объема текстового материала. 

Американские эксперты всегда тщательно исследовали тексты официальных выступлений высших должностных лиц СССР. Анализ формально-структурных особенностей этих текстов позволял вскрывать противоречия в советском руководстве. 

Отдельно по своему значению и перспективам, с нашей точки зрения, стоит такой метод информационно-аналитической работы, пока не получивший широкого распространения, как метод сети связей.

Метод сети связей систематичен и дает легко воспринимаемое графическое отображение сложных взаимосвязей, существующих между индивидуумами и организациями или видами деятельности, на основании большого многообразия разрозненных элементов. "Прочность" ассоциации оценивается при помощи следующих категорий: сильная ассоциация или связь, умеренная, слабая и отсутствие какой-либо связи. Для регистрации оцененных ассоциаций строится матрица ассоциаций. 

Не менее перспективен метод так называемого “окна фактов”, с помощью которого из каждой публикации извлекались только несомненные факты, часто совершенно тривиальные и неинтересные. Оказалось, что сопоставление подобных “атомарных” фактов может дать неожиданные новые знания.

Наиболее полно функциональность специализированного программного обеспечения по анализу больших массивов неструктурированных текстов в настоящее время отражена в системах

Pathfinder – US National Ground Intelligence Center analyst tool (http://www.fas.org/irp/program/process/pathfinder.htm) – по сути, это рабочее место аналитика разведсообщества США. Стоит на вооружении CIA, DIA, министерства энергетики, Госдепартамента и так далее. С использованием Pathfinder и ряда других систем (http://www.fas.org/) в США развернута специализированная интранет-сеть Intelink Central – U.S. Intelligence INTELINK (http://www.topsecretnet.com/), обеспечивающая сотрудников разведсообщества единообразным доступом к всей совокупности ресурсов, аналитических инструментов, баз данных, средств коммуникации и контроля состояния и так далее (http://www.newsmaker.ru/free/bit/news/kaled/Kl4.htm ) .
– QUESTEL-ORBIT – система для информационно-аналитических исследования разработки FRANCE ТЕLЕСОМ GROUР. Активно применяется французской контрразведкой.
– В качестве примера отечественных разработок можно привести информационно-поисковую систему (ИПС) для выявления действующих под различными прикрытиями иностранных разведчиков, разработанную в Управлении “К” (внешняя контрразведка) ПГУ КГБ СССР полковником Ю.Х.Тотровым. 

К сожалению, большая часть коммерческих продуктов, позиционированных в прессе как инструменты text mining, competitive intelligence tool, business intelligence tools на практике являются системами либо статистического анализа с развитой визуализацией, либо системами, ориентированными на работу с числовой информацией (системы семейства OLAP).

Существующие системы, претендующие на решение задачи text mining в расширенной трактовке (а именно, автоматическое реферирование, выделение тем и построение каталогов – читай, автоматическая классификация материалов) представляют собой системы, упорядочивающие полнотекстовые коллекции документов. Это также немало и, безусловно, полезно. 

Однако при этом задача выделения "скелета" документа, его смысловой составляющей, в полной мере не решена даже теоретически (во всяком случае, для русского языка). А именно эта задача является, по сути, задачей извлечения знаний.

К сожалению, проблема понимания смысла текстов (а по большому счету речь идет именно об этом) существенно языкозависима.

Следует отметить, что события 11 сентября 2001 г. привели к существенному сокращению числа публикаций по данной тематике, как в прессе, так и в Интернет. Видимо, можно сделать вывод не только о понятной паранойе, но и о том, что подобные технологии все больше переходят из разряда исследований в разряд боевого оружия (как в свое время было с публикациями по “атомной проблематике”).

Автор: Макстенек Мирослав
Источник: 4p.ru  

Добавить комментарий