Анализ публикаций будет делаться на базе Публичной интернет-библиотеки www.public.ru, собирающей в свою электронную базу публикации отечественной периодики.
"Коллектор рассеянной информации в текстах" - КРИТ, является составной частью Модульной аналитической системы, разработанной российской компанией "Смартвейр". КРИТ позволяет проводить автоматический анализ содержания неструктурированных текстов, и предназначен для создания информационно программных комплексов и систем поддержки принятия решений. КРИТ автоматически анализирует содержание текстовых документов, извлекает "информационные сущности" (физические и юридические лица, географические понятия, телефоны и адреса электронной почты) и представляет их в форме ассоциативной семантической сети. Используя построенные для документов семантические сети, можно выполнять различные аналитические операции: поиск неявных связей сущностей, сравнение документов на смысловое сходство, построение графиков распределения тем по времени (таймлайнов), построение частотных характеристик тем, вычленение оценок авторов и т.п.
Клиент-менеджер компании Артем Тринев рассказал ComNews, что одним из эффективных и актуальных применений системы может быть, например, автоматизированный поиск плагиата. В целом, ориентированный граф с узлами-сущностями, полученный в результате обработки текста позволяет в дальнейшем применять различные математические методы анализа. В данном случае, правоохранительные органы будут искать паттерны экстремистской и прочей подозрительной информации.
Объектом обработки аналитической системы КРИТ служат русскоязычные электронные тексты - клиент-серверные и персональные базы данных, ODBC-источники и файлы различных текстовых форматов (XML, txt, pdf, doc, rtf и др.). Система работает на платформах Windows 2000, XP. Программа является реализацией оригинальных разработок, базирующихся на лингвистико-математических исследованиях научных коллективов России (МГУ, ИПС РАН), отечественных разработчиков (RCO Гарант-Парк-Интернет).