Теории
Данные
Методы
Стратегии
ВходРегистрация
Интеллектуальный анализ данных
Теория
Web-система интеллектуального анализа археологических данных

В соответствии с планом работ по созданию автоматизированной обучающей Web-системы для обработки археологической информации, проработаны и зафиксированы основные принципы и требования к архитектуре, определен перечень инструментальных средств. Программу можно условно разделить на 3 основных структурных компонента: базу данных, блок запуска вычислительных методов и интерфейс пользователя. Для хранения данных выбрана бесплатная реляционная СУБД MySQL, удовлетворяющая требованиям по скорости доступа при ожидаемых объемах хранимой информации и достаточно простая в разработке и сопровождении. В качестве основного источника методов используется R-язык программирования для статистической обработки данных и работы с графикой, разрабатываемый интернет-сообществом под лицензией GNU GPL. Интерфейс пользователя реализован на языке PHP с применением технологии AJAX, позволяющей выводить на экран новое содержимое без повторной загрузки всей Web-страницы. Содержательная информация структурирована, как в файловой системе современных компьютеров. Общедоступные данные хранятся в корневом разделе, а также в личных архивах, открытых владельцами или администратором системы по поручению владельца. На примере решения нескольких задач проведено сравнение оригинальной системы Discovery, которая будет включена в систему, с наиболее широко используемыми методами Microsoft Association Rules и Decision Trees, встроенными в Microsoft SQL Server Analysis Services. Проведена разработка системы Visual Discovery для визуального извлечения интерпретируемой информации из данных в терминах онтологии.

Полный текст статьи:

Археология исследует историю человечества путем изучения вещественных остатков древних поселений. Наряду с единичными, уникальными предметами, она собирает и массовый материал, характеризующий образ жизни и технологии древних производств. Накапливаемые массивы массового материала создают почву для применения методов математической статистики в археологии.

Использование этих методов восходит к временам, предшествующих появлению ЭВМ и персональных компьютеров, когда, начиная с 20-гг. XX в. В России и на Западе стали применяться методы математической статистики в археологических исследованиях. С появлением компьютерных технологий и возникновением течения «новой археологии» стали активно внедряться методы математической статистики в археологию. Это работы Л. Бинфорда [Binford, 1972], Д. Кларка [Clarke, 1968], ряд сборников статей, посвященных применению количественных методов в археологии. С этого времени началось активное издание учебных пособий по их применению в археологии [Doran, Hodson, 1975; Orton, 1982, 2000; Fletcher, Lock, 2005; Baxter, 1994,2003; Drennan, 1996; Shennan, 1997]

В середине 70-х гг. началось применение методов математической статистики в СССР. Стали издаваться сборники статей по применению статистико-комбинаторных методов в археологии. Отрадным фактом в 80-е гг. XX столетия было появление учебного пособия по математической статистике [Федоров-Давыдов, 1987], которое до сих пор является единственным отечественным изданием в данном направлении. Здесь ощущается явное несоответствие потребностям развития отечественной археологической науки. В этом отношении намного более продвинутое состояние наблюдается в исторической науке благодаря созданной профессором Л. И. Бородкиным ассоциации «История и компьютер», которая регулярно проводит конференции по квантитативной истории и издает сборники работ «Круг идей» и др. В Московском государственном университете издано учебное пособие [Белова и др., 1999].

В конце 80-х гг. на Западе был разработан оф-лайновый статистический пакет для археологов BASP. В нашей стране подобных разработок для археологов не проводилось. Антропологи и некоторые археологи используют статистические пакеты (Statistica, Statgraphic, SPSS и др.). Массовому использованию статистических методов препятствует низкая статистическая культура исследователей. Причины этого достаточно очевидны: на исторических факультетах готовят преподавателей, а не исследователей, и поэтому выпускники этих вузов не имеют необходимой для исследователя статистической подготовки.

В структурах большинства исторических и археологических НИИ и вузов отсутствуют специализированные лаборатории информатики, призванные обеспечить исследователю квалифицированный статистический анализ наблюдений, за исключением немногочисленных лабораторий в ряде научно-исследоватеских институтах и вузах (МГУ, АГУ, ИАЭТ СО РАН) с ограниченным штатом сотрудников, не позволяющий в полной мере дать основы системного подхода с грамотной формулировкой статистических гипотез научным сотрудникам, аспирантам и докторантам, проводящим свои исследования в этих НИИ и вузах. А наметившаяся тенденция к поголовному сокращению подготовленных специалистов в области информатики (как непрофильных в археологии) лишь ухудшает и без того низкую статистическую культуру археологов. Кроме того, отсутствует отраслевая нормативная база (отраслевые археологические стандарты), регламентирующая статистический анализ, как завершающий этап кропотливой работы многих специалистов, который в большинстве случаев выполняется самоучками, людьми, не имеющими профессиональной подготовки в этой области.

Web-интерфейс системы предполагается реализовать с помощью одной из имеющихся бесплатных систем управления содержимым сайтов (CMScontent management system).

Для реализации дополнительных функций серверной части портала предполагается использовать язык PHP, выбор которого связан с тем, что на этом языке написаны почти все CMS. Для реализации дополнительных функций интерактивного поведения интерфейсных элементов клиентской части предполагается использовать язык JavaScript и библиотеки jQuery и jQuery UI, которые позволяют разрабатывать динамичный и удобный пользовательский интерфейс, использующий технологию AJAX для реализации динамически изменяющихся web-страниц без их перезагрузки.

В качестве базы данных выбрана бесплатная реляционная СУБД MySQL, удовлетворяющая требованиям по скорости доступа при ожидаемых объемах хранимой информации и достаточно простая в разработке и сопровождении.

Для предоставления возможностей проведения расчетов методами статистики и интеллектуального анализа данных, а также свободного конструирования стратегий анализа для специалистов, предполагается подключить бесплатный Open Source пакет анализа «R-язык», развиваемый и регулярно обновляемый интернет-сообществом.

Систему можно условно разделить на 3 основных структурных компонента: базу данных, блок запуска вычислительных методов и интерфейс пользователя. Рассмотрим кратко основные принципы и требования к архитектуре каждого из этих компонентов.

База данных обеспечивает хранение содержательной и служебной информации. К содержательной информации относятся данные, которые обрабатывают пользователи. К служебной – данные о паролях и правах отдельных пользователей и групп пользователей, а также системные настройки, влияющие на интерфейс. Содержательная информация может быть персонализированной (полный доступ только у владельца), либо же общей. Для поддержки групповой работы необходимо вводить права доступа для групп пользователей. Права доступа определяют допуск к информации:

Rread, чтение (просмотр средствами интерфейса);

Ccopy, копирование (и экспорт);

Aappend, добавление (новых данных);

Wwrite, запись (поверх имеющихся);

Eedit, редактирование (отдельные изменения внутри данных);

Ddelete, удаление (архива или фрагментов данных).

Содержательная информация распределена по архивам, структурированным в виде дерева, подобно файловой системе современных операционных систем. Общедоступные данные хранятся в системном архиве, расположенном в корневом разделе, а также в открытых архивах пользователей, которые могут быть открыты владельцем или администратором системы по поручению владельца. За системный архив отвечает администратор системы. Кроме того, для незарегистрированных пользователей создаются персональные временные архивы на одну сессию, сохраняемые в базе данных определенное время после последнего обращения к серверу, и добавляемые к архиву пользователя, если он зарегистрируется в системе или войдет в нее под своим именем.

Данные для расчетов хранятся в архивах в виде набора таблиц типа объект-свойство с информацией о памятниках и экспедициях, где был получен данный эмпирический материал, а также ссылки на публикации с анализом, если таковые имеются. Не вызывает сомнений, что наиболее полным источником информации является полевой журнал с подробными описаниями всех находок, их локализацией на памятнике и стратиграфией. В этом случае предварительный искусственный отбор материала при формировании выборочной совокупности не накладывает дополнительных ограничений на данные, что делает анализ максимально объективным.

Блок запуска вычислительных методов предоставляет инструменты анализа данных. В настоящее время существует целый ряд коммерческих и свободно распространяемых пакетов и сред для анализа данных. Многие из них позволяют производить вычисления в пакетном режиме – по предварительно записанной программе на командном языке пакета. Кроме того, в каждом из них есть возможность импортировать данные из разных форматов, в том числе текстовых. Это создает принципиальную возможность реализовывать стратегии решения археологических задач на многих инструментах, каждый из которых наиболее удобен той или иной группе пользователей.

Проектируемая Web-система должна обеспечивать возможность решения небольших задач пользователя на сервере, а больших (по затратам памяти и времени) на стороне клиента. Порог масштаба допустимых задач должен рассчитываться динамически, исходя из текущей загруженности сервера.

Разумным выбором для решения мини-задач на стороне сервера нам представляется R-язык, который разрабатывается Интернет-сообществом по лицензии, предусматривающей свободное распространение и использование. Положительным аргументом в его пользу является широта представления методов в его наборе, охватывающих практически все неоходимое для целей анализа данных. Отрицательным моментом является явно недостаточное быстродействие современной реализации R-языка, которое вынуждает в случае трудоемких задач или большого числа пользователей, одновременно запускающих счетные задачи, искать обходные архитектурные решения, в частности – поддержку альтернативных пакетов анализа данных для запуска методов на стороне клиента. С другой стороны, такое вынужденное решение делает систему более универсальной и удобной для пользователя, так как увеличивает его свободу в выборе инструмента решения задач.

Для обеспечения совместимости результатов при использовании различных инструментов можно придерживаться соглашения, что перенос стратегии на другой инструмент считается завершенным только после того, как на контрольных примерах минимального объема будут достигнуты результаты, полностью идентичные эталону.

Однако не все методы из предполагаемых к использованию в системе представлены в R-языке и универсальных пакетах. В частности, такой мощный метод логико-вероятностного предсказания и естественной классификации, как система Discovery [Фирсов, Витяев, 2012], будет встроена в проектируемую систему на правах оригинального метода анализа данных наряду с некоторыми другими авторскими методами, такими, как кластерный анализ с поиском оптимального числа кластеров [Жданов, Костин, 2002], обобщенная классификация [Костин, Корнюхин, 2003] и сравнение классификаций [Костин, 2003].

Интерфейс организует рабочее место пользователя, предоставляя ему доступ к данным и методам анализа. Основные требования к интерфейсу вытекают из сверхзадачи – создания пространства общения археологов и математиков в процессе математизации археологии. Среди этих требований стоит особо отметить необходимость в виртуальном конструкторском бюро, в которое археологи приходят со своими проблемами, специалисты по анализу данных предлагают свои решения в виде цепочки методов, а математики и программисты – программы для эффективных вычислений. Результатом их совместных усилий будут новые стратегии анализа данных, доведенные до полной формализации. При этом каждая такая созревающая стратегия должна выделяться в отдельный проект, степень готовности которого должна легко отслеживаться и в общем, и в деталях.

Также необходимо соблюдать и общие принципы разработки интерфейса:

Интерфейс не должен создавать технических препятствий для пользователя. Невнятность логики управления и любые лишние действия отвлекают пользователя от решения содержательных задач. Никаких лишних сложностей – максимальная простота.

Интерфейс не должен скрывать информации. Максимальная прозрачность и доступность.

Если есть несколько маршрутов движения к результату, то интерфейс не должен навязывать пользователю какой-либо один из них. Максимальная свобода действий. Инициативой владеет пользователь, а интерфейс обслуживает его, создавая активную среду для разработки и использования стратегий анализа данных.

Более детальные соображения по архитектуре системы вытекают из опыта разработки пробного варианта нашей системы на базе CMS Drupal 6.0. В результате этой предварительной разработки была продемонстрирована возможность в заявленные сроки реализовать всю необходимую функциональность системы. Но были также выявлены и недостатки архитектуры и интерфейса, которые должны быть учтены при реализации рабочей версии системы.

В состав пробного варианта web-системы входит:

Главная страница http://ko.ieie.nsc.ru/archaeology/ru, которая поможет пользователю понять, будет ли для него полезна и актуальна работа с системой. В этом разделе надо дополнительно описать, какова целевая аудитория системы (археологи и специалисты в области статистики и анализа данных), что такое стратегия решения задач и как устроена система (рис. 1).

Анализ данных http://ko.ieie.nsc.ru/archaeology/ru/analysis – основной раздел системы, отвечающий за работу с данными и методами. От удобства пользования этим разделом в основном зависит будущая популярность системы у потенциальных пользователей. Любой просчет здесь может стать критическим (рис. 2).

В пробной версии для навигации по данным и методам был использован один и тот же специально разработанный элемент управления, сохраняющий в отведенной ему области окна все последовательно пройденные уровни навигации с возможностью прокрутки.

Хотя на разработку этого элемента управления было потрачено достаточно много времени, в процессе опытной эксплуатации выяснилось, что пользоваться такой навигацией неудобно, поскольку значительная часть видимой области окна используется нерационально – для хранения второстепенной информации с верхних уровней дерева данных или методов, а для самой важной информации текущего уровня остается совсем немного места. Отсюда вытекают рекомендации для реализации интерфейса в проектируемой системе: освобождать для актуальной информации максимально возможное пространство, сворачивая неактуальную в данный момент информацию в как можно меньшую область экрана. Под неактуальной информацией следует понимать как верхние уровни навигации, так и всю навигацию по методам, когда мы работаем с данными или всю навигацию по данным, когда мы работаем с методами. И только в тот момент, когда мы уже выбрали массив данных и метод, которым мы собираемся их обрабатывать, можно одновременно раскрыть обе панели – и данных, и методов, чтобы настраивать метод путем забрасывания признаков в его параметры.

Новости http://ko.ieie.nsc.ru/archaeology/ru/news по темам, имеющим отношение к археологии, анализу данных и прочим, помогающие пользователю расширить свои представления по теме. Заголовок выполнен в виде гиперссылки на полный текст одной этой новости в том же окне. Строка, в которой указана дата и источник новости – гиперссылка на новость в этом источнике (рис. 3).

Описание методов http://ko.ieie.nsc.ru/archaeology/ru/methods-description анализа данных, помогающее понять, для решения каких задач применяется каждый метод, и какие требования к входным данным он предъявляет. Те же описания доступны из навигатора по методам – там они вызываются по кнопке  в правом верхнем углу второго и последующих уровней навигатора методов. Описания привязаны ко всему уровню навигации, а не к выделенному элементу, который при открытии уровня еще не определен. Эти описания имеет смысл дополнить примерами решения задач и замечаниями пользователей из соответствующей ветви форума (рис. 4).

Карта сайта http://ko.ieie.nsc.ru/archaeology/ru/sitemap для ресурса с такой простейшей структурой не имеет самостоятельного смысла, но при развитии, разветвлении структуры, может оказаться полезной. Особенно разветвленной структура станет при появлении форума для пользователей (рис. 5).

Обратная связь http://ko.ieie.nsc.ru/archaeology/ru/contact предоставляет пользователю возможность вносить свои замечания и предложения, посылая письма непосредственно администратору сайта. Стоит заметить, что для зарегистрированных пользователей такие поля, как «Ваше имя» «Адрес Вашей электронной почты (e-mail)» должны по умолчанию заполняться значениями из регистрационных данных, чтобы по возможности не напрягать пользователя по пустякам (рис. 6).

Web-система для обработки археологической информации будет содержать оригинальные методы интеллектуального анализа данных, в частности, системы Discovery, реализующей реляционный подход для обнаружения закономерностей в данных [Витяев, 2006; 2010; Витяев, Москвитин, 1993; Kovalerchuk, Vityaev, 2000].

Для того, чтобы пользователь мог в этой системе удобно и наглядно извлекать информацию из данных и формировать гипотезы в терминах этой информации, нами была разработана система Visual Discovery, которая позволяет это делать в режиме визуального конструктора. Нами разработана такая система, дано описанию системы и пример её использования для решения задачи из области медицины.

Проведено сравнение системы Discovery с алгоритмами Microsoft Association Rules и Decision Trees, встроенными в Microsoft SQL Server Analysis Services. Показано, что система «Discovery», во-первых, обладает теоретическими преимуществами перед этими алгоритмами, и, во-вторых, практически лучше работает на данных, где эти преимущества проявляются явно.

В археологии множество задач решается методами классификации в режиме самообучения. Существующие алгоритмы никак не связаны с существующими теориями психологии образа и восприятия. Для моделирования процессов порождения образов, их изменений и развития в процессе восприятия внешнего мира нужна адекватная формализация образа и восприятия, которая бы основывалась на психологии восприятия. Нами предлагается такая формализация, где образ и восприятие рассматриваются в соответствии с существующими представлениями, как непрерывный процесс предвосхищения (предсказания) образом поступающих стимулов и проверка предсказаний на соответствие реальным стимулам. Нами разработан алгоритм, реализующий данную формализацию. Проведены эксперименты, демонстрирующие её работоспособность.

 Список литературы

 Белова Е. Б., Бородкин Л. И., Гарскова И. М., Изместьева Т. Ф., Лазарев В. В., Тихонов А. И. Компьютеризованный статистический анализ для историков. М.: МГУ, 1999. 187 с.

Витяев Е. Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов. Новосибирск, 2006. 293с.

Витяев Е. Е. Извлечение информации из данных // Информационные технологии в гуманитарных исследованиях. Вып. 15. Новосибирск, 2010. С. 916.

Витяев Е. Е., Москвитин А. А. Введение в теорию открытий. Программная система DISCOVERY // Вычислительные системы. Вып. 148. Новосибирск, 1993. С. 117–163.

Жданов А. С., Костин В. С. Значимость и устойчивость автоматической классификации в задаче поиска оптимального разбиения // Информационные технологии в гуманитарных исследованиях. Вып. 3. Новосибирск, 2002. C. 36–42.

Костин В. С. Статистика для сравнения классификаций // Информационные технологии в гуманитарных исследованиях. Вып. 6. Новосибирск, 2003. С. 57–65.

Костин В. С., Корнюхин Ю. Г. Построение обобщенной классификации // Информационные технологии в гуманитарных исследованиях. Вып. 6. Новосибирск, 2003. С. 65–72.

Федоров-Давыдов Г. А. Статистические методы в археологии. М.: Высшая школа, 1987. 216 с.

Фирсов Н. И. Витяев Е. Е. Сравнение системы «Discovery» с алгоритмами Microsoft Association Rules и Decision Trees, встроенными в Microsoft SQL Server Analysis Services // Информационные технологии в гуманитарных исследованиях. Вып. 17. Новосибирск, 2012. С. 51–63.

Baxter M. J. Exploratory multivariate analysis in archaeology. Edinburgh: Edinburgh University Press, 1994. 307 p.

Baxter M. J. Statistics in archaeology. London: Arnold, 2003. 292 p.

Binford L. R. An archaeological perspective. New York; London: Seminar Press, 1972. 464 p.

Clarke D. L. Analytical archaeology. L.: Methuen, 1968. 684 p.

Doran J. E., Hodson F. R. Mathematic & Computer in Archaeology. Edinburgh: Edinburgh University Press, 1975. 381 p.

Drennan R. D. Statistics for archaeologysts. New York: Plenum Press, 1996. 273 p.

Fletcher M., Lock G. R. Digging Numbers: elementary statistics for archaeologists. Oxford: Oxford University School of Archaeology, 2005. 205 p.

Kovalerchuk B., Vityaev E. Data Mining in Finance: Advances in Relational and Hybrid methods. Boston: Kluwer Academic Publishers, 2000. 308 p.

Orton C. Mathematics in Archaeology. Cambridge; New York: Cambridge University Press, 1982. 248 p.

Orton C. Sampling in archaeology. Cambridge: Cambridge University Press, 2000. 261 p.

Shennan S. Quantifying Archaeology. Iowa City: University of Iowa Press, 1997. 433 p.

Теги:
Статья