Ожившие артефакты: Искусственный интеллект в виртуальной археологии

Автор: Денис Аветисян


Новое исследование демонстрирует, как возможности генеративных моделей и виртуальной реальности объединяются для создания интерактивных цифровых гидов, способных рассказать историю прошлого.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Предлагаемая концепция пространства требований для аватаров в приложениях виртуальной археологии структурируется вокруг трех ключевых аспектов: целевой аудитории, определяющей конечных пользователей системы; индивидуальности аватара, формирующей ожидания пользователей от его ответов; и взаимодействия аватара с пользователем, учитывающего особенности иммерсивной среды, при этом данная модель опирается на работы Doerr, Deshpande, Walsh, Bartsch, van Peer, Rashik и Martin для определения соответствующих параметров и категорий пользователей.
Предлагаемая концепция пространства требований для аватаров в приложениях виртуальной археологии структурируется вокруг трех ключевых аспектов: целевой аудитории, определяющей конечных пользователей системы; индивидуальности аватара, формирующей ожидания пользователей от его ответов; и взаимодействия аватара с пользователем, учитывающего особенности иммерсивной среды, при этом данная модель опирается на работы Doerr, Deshpande, Walsh, Bartsch, van Peer, Rashik и Martin для определения соответствующих параметров и категорий пользователей.

В статье представлен дизайн, реализация и оценка AI-аватара на основе RAG для исследования мавзолея Максенция в виртуальной реальности.

Несмотря на растущий интерес к цифровому наследию, доступ к специализированным знаниям об археологических объектах в иммерсивных средах остается сложной задачей. В данной работе, ‘Design Space and Implementation of RAG-Based Avatars for Virtual Archaeology’, исследуется возможность использования виртуальных аватаров, основанных на генерации с расширенным поиском (RAG), в качестве интерфейса для получения информации об оцифрованных культурных объектах, используя в качестве примера мавзолей Максенция IV века нашей эры. Предложенный подход демонстрирует, что RAG-аватары позволяют пользователям получать релевантные знания непосредственно в виртуальной реальности, снижая когнитивную нагрузку и повышая вовлеченность. Может ли подобная технология стать стандартным инструментом для интерактивного изучения и сохранения культурного наследия в будущем?


Упрощение Сложного: Введение в Анализ Культурного Наследия

Традиционные методы анализа сложных объектов культурного наследия, таких как Мавзолей Максенция, зачастую требуют значительных временных затрат и не позволяют в полной мере учесть нюансы контекста. Детальное изучение архитектурных особенностей, исторических событий и взаимосвязей с окружающей средой, проводимое вручную, может занимать годы, а результаты часто остаются фрагментарными. Это связано с тем, что объекты культурного наследия представляют собой сложные системы, в которых каждый элемент — от строительных материалов до декоративных деталей — несет в себе информацию о прошлом. Поверхностный анализ, не учитывающий эту многослойность, приводит к упрощенным интерпретациям и утрате ценных сведений. В результате, понимание истории, функций и значения этих памятников остается неполным, что затрудняет их эффективную охрану и популяризацию.

Для эффективной сохранности и интерпретации культурного наследия необходимы инновационные инструменты, способные объединять огромные объемы археологических данных и делать их доступными как для специалистов, так и для широкой публики. Традиционные методы анализа, зачастую, оказываются недостаточными для обработки сложной информации, полученной при изучении исторических объектов. Разработка систем, способных не просто хранить данные, но и устанавливать связи между различными находками, контекстами и историческими периодами, позволяет создавать более полное и глубокое понимание прошлого. Такие инструменты открывают новые возможности для исследований, виртуальной реконструкции памятников и образовательных проектов, способствуя популяризации культурного наследия и его сохранению для будущих поколений.

Существующие системы поиска информации часто оказываются неэффективными при работе с данными о культурном наследии из-за их специфической природы и сложной взаимосвязанности. Традиционные методы, ориентированные на ключевые слова и общие категории, не способны уловить нюансы контекста, исторические связи и многослойность интерпретаций, характерные для археологических объектов и артефактов. Сложность заключается в том, что информация о культурном наследии редко существует в виде четко определенных фактов; она часто представлена в виде гипотез, фрагментарных данных и субъективных оценок, требующих глубокого анализа и понимания контекста. Это приводит к тому, что релевантная информация может оставаться незамеченной или интерпретироваться неверно, затрудняя процесс сохранения и изучения культурного наследия. Необходимость разработки новых подходов к поиску и организации информации, учитывающих эту сложность и взаимосвязанность, становится все более очевидной для обеспечения эффективной работы исследователей и широкой публики.

В нашей системе для использования в мавзолее Максентия реализован выбор параметров, ориентированный на опытных исследователей, где аватару с экспертной личностью и абстрактно-роботическим воплощением для взаимодействия с пользователем предоставляется аудиовход и визуально-аудиальный вывод в формате упрощенных жестов, а порядок выбора параметров отображается горизонтально вместо вертикального.
В нашей системе для использования в мавзолее Максентия реализован выбор параметров, ориентированный на опытных исследователей, где аватару с экспертной личностью и абстрактно-роботическим воплощением для взаимодействия с пользователем предоставляется аудиовход и визуально-аудиальный вывод в формате упрощенных жестов, а порядок выбора параметров отображается горизонтально вместо вертикального.

Иммерсивная Аналитика: Архитектура Системы

Система использует технологию виртуальной реальности (VR) для создания иммерсивной среды, предназначенной для изучения данных культурного наследия. Визуализация данных в трехмерном пространстве позволяет пользователям воспринимать и анализировать информацию с учетом ее пространственного контекста, что повышает эффективность понимания и интерпретации исторических и археологических данных. В частности, объекты культурного наследия, такие как здания, артефакты и ландшафты, реконструируются в VR-среде, обеспечивая возможность интерактивного исследования и анализа, недоступного при традиционных методах представления данных. Данный подход способствует более глубокому пониманию взаимосвязей между объектами и контекстом их происхождения.

В основе системы лежит технология Retrieval-Augmented Generation (RAG), которая расширяет возможности больших языковых моделей (LLM) за счет динамически обновляемого графа знаний. RAG позволяет LLM получать доступ к актуальной и релевантной информации из графа знаний во время генерации ответов, что повышает их точность и контекстуальную обоснованность. Граф знаний выступает в качестве внешней базы данных, содержащей факты, связи и метаданные о культурном наследии, которые LLM использует для формирования более информативных и достоверных ответов на запросы пользователей. Динамическое обновление графа знаний обеспечивает актуальность информации и позволяет системе адаптироваться к новым данным и открытиям.

Система использует технологии преобразования речи в текст (Speech-to-Text) и текста в речь (Text-to-Speech) для обеспечения взаимодействия с искусственным интеллектом посредством естественного языка. В рамках виртуальной реальности реализована возможность голосового управления и получения ответов в устной форме. Интеллектуальный помощник представлен настраиваемым аватаром, дизайн которого может быть изменен пользователем. Данные, полученные через микрофон, преобразуются в текстовый формат для обработки моделью искусственного интеллекта, а ответы синтезируются в речь и воспроизводятся в VR-среде.

Процесс создания цифрового AI-аватара для археологических иммерсивных сред включает три этапа: определение требований, проектирование архитектуры и непосредственную реализацию системы.
Процесс создания цифрового AI-аватара для археологических иммерсивных сред включает три этапа: определение требований, проектирование архитектуры и непосредственную реализацию системы.

Техническая Реализация: Создание Интеллектуального Ядра

Для построения и развертывания системы генерации с расширенным извлечением (Retrieval-Augmented Generation) используется платформа FlowiseAI. Данный инструмент обеспечивает упрощенную интеграцию и управление внешними источниками знаний, позволяя подключать разнообразные базы данных, API и файлы. FlowiseAI предоставляет визуальный интерфейс для проектирования и настройки цепочек обработки данных, что существенно сокращает время разработки и позволяет быстро адаптировать систему к различным требованиям и источникам информации. Платформа автоматизирует многие рутинные задачи, связанные с извлечением, преобразованием и загрузкой данных, а также с построением и оптимизацией векторных представлений для эффективного поиска релевантной информации.

Платформа Ollama предоставляет инфраструктуру для локального запуска больших языковых моделей (LLM), что позволяет избежать зависимости от внешних сервисов и обеспечивает повышенную производительность за счет снижения задержек, связанных с сетевым взаимодействием. Локальное размещение LLM также существенно повышает уровень конфиденциальности данных, поскольку обработка информации происходит непосредственно на оборудовании пользователя, исключая передачу данных третьим лицам. Ollama упрощает процесс развертывания и управления моделями, предоставляя унифицированный интерфейс для загрузки, настройки и запуска различных LLM, что снижает операционные затраты и ускоряет внедрение.

В качестве векторной базы данных используется Qdrant, обеспечивающий эффективное хранение и извлечение векторных представлений (embeddings), кодирующих семантические связи в графе знаний. Этот граф знаний построен на основе CIDOC-CRM — международно признанного стандарта для моделирования культурного и исторического наследия. Использование векторных представлений позволяет Qdrant выполнять семантический поиск и быстро извлекать наиболее релевантную информацию, учитывая смысловое сходство между запросами и данными, хранящимися в графе знаний. Эффективность Qdrant обеспечивается оптимизированными алгоритмами поиска ближайших соседей в многомерном векторном пространстве.

Оценка Пользовательского Опыта и Производительности Системы

Исследования с участием пользователей, в которых для оценки рабочей нагрузки использовался инструмент NASA-TLX, показали, что разработанная иммерсивная аналитическая платформа значительно улучшает понимание данных и снижает когнитивную нагрузку по сравнению с традиционными методами. Участники продемонстрировали более глубокое осмысление сложной информации и более эффективное выявление взаимосвязей, что свидетельствует о повышенной продуктивности и снижении вероятности ошибок при анализе. Полученные результаты подтверждают, что погружение в виртуальную среду способствует более интуитивному взаимодействию с данными, облегчая процесс их интерпретации и позволяя пользователям концентрироваться на сути анализа, а не на сложностях интерфейса.

Исследования показали, что испытуемые демонстрировали повышенную вовлеченность и более глубокое понимание сложных взаимосвязей в археологических данных при работе с виртуальной средой. В ходе экспериментов отмечалось, что трехмерная визуализация и интерактивное взаимодействие позволили участникам интуитивно воспринимать контекст находок и связи между артефактами, что значительно превосходит возможности традиционных методов анализа. Данное повышение уровня вовлеченности и улучшение понимания сложных данных свидетельствует о потенциале системы для трансформации археологических исследований и облегчения интерпретации культурного наследия.

Исследование продемонстрировало высокую эффективность разработанной системы в процессе поиска и анализа информации. Автоматизированная обработка запросов, сочетающая в себе метаданные и возможности больших языковых моделей, позволила достичь среднего балла в 3.42 по шкале оценки качества ответов, сформированной с использованием LLM-as-judge. Этот показатель свидетельствует о точности и релевантности предоставляемых результатов. Дополнительное подтверждение достоверности данных было получено благодаря анализу BERTScore, который зафиксировал уровень семантической схожести с эталонными данными в пределах 77-79%. Такое сочетание метрик указывает на способность системы не только находить нужную информацию, но и представлять её в понятной и логичной форме, что является ключевым фактором для успешного решения сложных исследовательских задач.

Оценка рабочей нагрузки с использованием шкалы NASA-TLX показала, что пользователи воспринимают разработанную платформу как удобную и увлекательную. Полученные результаты демонстрируют умеренный или низкий уровень когнитивной нагрузки во время работы с системой, что свидетельствует о ее интуитивности и легкости освоения. Это особенно важно при работе со сложными археологическими данными, где традиционные методы часто требуют значительных усилий для понимания и анализа. Низкий уровень рабочей нагрузки указывает на то, что платформа позволяет пользователям эффективно взаимодействовать с информацией, не испытывая при этом переутомления или фрустрации, что способствует более глубокому и продуктивному исследованию.

В ходе пользовательского исследования испытуемым предлагались варианты ответов (отображены серыми полями) на вопрос о датировке мавзолея, что позволяло оценить их восприятие и понимание.
В ходе пользовательского исследования испытуемым предлагались варианты ответов (отображены серыми полями) на вопрос о датировке мавзолея, что позволяло оценить их восприятие и понимание.

Исследование демонстрирует стремление к упрощению взаимодействия с культурным наследием посредством RAG-систем. Создание AI-аватара для виртуальной реальности, способного предоставлять контекстную информацию о Максенциальном мавзолее, требует лаконичности и ясности представления знаний. Грейс Хоппер однажды заметила: «Лучший способ предсказать будущее — это создать его». Данная работа воплощает это утверждение, предлагая не просто отображение прошлого, но и активное создание опыта взаимодействия с ним, где избыточность устраняется ради более глубокого и доступного понимания. Оптимизация workload, описанная в статье, является прямым следствием принципа, согласно которому простота — не ограничение, а свидетельство глубокого понимания системы.

Что дальше?

Представленная работа, несомненно, демонстрирует потенциал подхода, основанного на извлечении и генерации (RAG), для обогащения опыта взаимодействия с культурным наследием в виртуальной реальности. Однако, за кажущейся элегантностью реализации скрывается неизбежная сложность, присущая любой системе, стремящейся к репрезентации знания. Проблема не в количестве извлеченных фактов, а в их осмысленности. Оптимизация поиска релевантной информации — это лишь первая ступень; истинный вызов заключается в создании когерентного и контекстуально обоснованного нарратива.

Очевидным направлением дальнейших исследований является переход от оценки рабочей нагрузки к оценке когнитивной нагрузки на пользователя. Важно понимать, что не перегруженность информацией, а её непонятность создает наибольшие затруднения. Вместо усложнения архитектуры, необходимо стремиться к её упрощению, к исчезновению автора из процесса взаимодействия. Каждый добавленный параметр — это потенциальный источник шума, каждое усложнение — шаг к потере ясности.

Будущее подобных систем видится не в создании всезнающих аватаров, а в предоставлении пользователю инструментов для самостоятельного исследования и интерпретации данных. В конечном счете, ценность культурного наследия заключается не в его воспроизведении, а в его понимании. И в этом процессе, искусственный интеллект должен выступать не как замена, а как помощник, стремящийся к исчезновению в пользу человеческого разума.


Оригинал статьи: https://arxiv.org/pdf/2603.23353.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-25 15:55