Искусственный интеллект в разработке: где агенты пока спотыкаются?

Автор: Денис Аветисян


Новое исследование показывает, что потенциал ИИ-агентов в автоматизации разработки программного обеспечения ограничен не способностью писать код, а сложностью понимания и планирования задач.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Сопоставление оценок большой языковой модели, выступающей в роли судьи, с экспертными оценками демонстрирует степень согласованности между искусственным и человеческим интеллектом в процессе оценки, указывая на потенциальную возможность автоматизации сложных оценочных задач.
Сопоставление оценок большой языковой модели, выступающей в роли судьи, с экспертными оценками демонстрирует степень согласованности между искусственным и человеческим интеллектом в процессе оценки, указывая на потенциальную возможность автоматизации сложных оценочных задач.

Исследование сравнительной эффективности ИИ-агентов, основанных на больших языковых моделях, в процессе комплексной разработки программного обеспечения от проектирования до тестирования.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), объективная оценка их возможностей в комплексных задачах, таких как разработка программного обеспечения, остается сложной проблемой. В работе ‘Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development’ предложен новый подход к оценке LLM-агентов, способных к сквозной разработке, включающий реалистичный бенчмарк и гибридную систему оценки. Исследование показало, что современные агенты выполняют около 50% требований, однако ключевым ограничением является не генерация кода, а понимание и планирование на основе требований. Какие архитектурные решения и методы обучения позволят LLM-агентам более эффективно решать задачи комплексной разработки программного обеспечения?


Автоматизация Разработки: Эпоха Новых Возможностей

Традиционная разработка программного обеспечения ограничена значительным объемом ручного труда и подверженностью ошибкам, что замедляет внедрение инноваций. Появление больших языковых моделей (LLM) открывает перспективы автоматизации всего жизненного цикла разработки, от формулирования требований до поставки готового продукта, снижая затраты и ускоряя процесс. Однако, для полной реализации этого потенциала необходимы интеллектуальные агенты, способные к комплексному планированию и надежной обработке ошибок. Современные агенты способны выполнить около 50% требований в сложных сценариях.

Сравнение выполнения требований в трех запусках для каждого агента демонстрирует относительную стабильность достижения поставленных целей.
Сравнение выполнения требований в трех запусках для каждого агента демонстрирует относительную стабильность достижения поставленных целей.

Каждая задержка в разработке – это цена, уплаченная за более глубокое понимание архитектуры системы.

Архитектуры Интеллектуальных Агентов: Пути Развития

В настоящее время формируются две основные архитектуры автономных систем: системы с единым агентом и многоагентные системы. Каждая имеет свои преимущества и недостатки, определяющие область применения. Архитектура MultiAgentArchitecture, использующая принцип TaskDecomposition, позволяет создавать специализированных агентов – DesignerAgent, DeveloperAgent и TesterAgent – для эффективного выполнения задач. В основе работы этих агентов лежит большая языковая модель (LLM), в частности Gemini2.5, обеспечивающая понимание требований и генерацию кода.

Ключевым компонентом является RequirementComprehension, обеспечивающая точную интерпретацию спецификаций. Однако, данный этап остается узким местом: 55.8% неудач связаны с проблемами планирования или понимания требований.

Оценка стабильности производительности агентов в различные периоды времени выявила незначительные колебания, указывающие на устойчивую работу.
Оценка стабильности производительности агентов в различные периоды времени выявила незначительные колебания, указывающие на устойчивую работу.

E2EDevBench: Стандартизация Оценки Автоматизированной Разработки

Набор данных E2EDevBench представляет собой стандартизированный бенчмарк для оценки агентов, предназначенных для сквозной разработки программного обеспечения. Он обеспечивает унифицированную платформу для сравнения различных подходов к автоматизации. В основе E2EDevBench лежат проекты из PyPI, что позволяет создавать реалистичные задачи. Оценка агентов учитывает не только функциональную корректность, но и способность справляться с ошибками планирования (PlanningFailure) и реализации (ImplementationError).

Процесс создания и оценки набора данных E2EDevBench включает последовательные этапы сбора, обработки и анализа данных для обеспечения надежности и валидности результатов.
Процесс создания и оценки набора данных E2EDevBench включает последовательные этапы сбора, обработки и анализа данных для обеспечения надежности и валидности результатов.

Для комплексной оценки применяется методология HybridEvaluationMethodology, использующая агента TestMigrationAgent. Она сочетает автоматизированное тестирование с проверкой требований на основе LLM и демонстрирует улучшение покрытия тестами на 20.22% и покрытия ветвей на 26.79% при использовании «Расширенных тестов».

Надежность и Эффективность Автоматизации: Взгляд в Будущее

Успешное применение автономных агентов в разработке программного обеспечения обещает увеличение скорости и снижение затрат. Автоматизация рутинных задач позволяет разработчикам сосредоточиться на сложных аспектах проекта, повышая производительность. Критически важными для обеспечения качества кода являются возможности самопроверки. Агенты должны создавать код и самостоятельно выявлять и исправлять ошибки, минимизируя риски. Ошибки реализации составляют 34.1% неудач, в то время как большинство (55.8%) возникают из-за проблем планирования и понимания требований.

Распределение шагов первого тестового написания агентами указывает на разнообразие подходов к решению задачи и вариативность в начальных этапах работы.
Распределение шагов первого тестового написания агентами указывает на разнообразие подходов к решению задачи и вариативность в начальных этапах работы.

Будущее разработки программного обеспечения – в партнерстве между разработчиками и интеллектуальными агентами. Вместе они способны создавать более надежные, эффективные и инновационные решения. Эта синергия, подобно течению времени, оттачивает и совершенствует все, что в ней заключено.

Исследование, посвященное автоматизированной разработке программного обеспечения с использованием LLM-агентов, выявляет критическую область для совершенствования – планирование и понимание требований. Несмотря на способность агентов генерировать код для половины задач, именно недостаток в качественной декомпозиции и интерпретации требований ограничивает их эффективность. Как заметил Линус Торвальдс, «Плохой код – это как долг: чем дольше откладываешь, тем дороже приходится расплачиваться». В данном контексте, нечеткие или неполные требования – это и есть тот самый «технический долг», который в будущем потребует значительных усилий для исправления и переработки системы. Очевидно, что будущее автоматизированной разработки программного обеспечения неразрывно связано с усовершенствованием этапа Requirement Engineering.

Что впереди?

Исследование, представленное в данной работе, демонстрирует, что системы на основе LLM-агентов способны выполнить приблизительно половину задач, возникающих в процессе разработки программного обеспечения. Однако, если присмотреться внимательнее, становится ясно: узким местом является не генерация кода как такового, а способность к планированию и, что более важно, к пониманию исходных требований. Любой аптайм – лишь временное состояние, иллюзия стабильности, кэшированная временем.

Будущие исследования должны быть сосредоточены не на полировке алгоритмов генерации, а на разработке более совершенных методов инженерной работы с требованиями. Необходимо найти способы, позволяющие агентам не просто распознавать запросы, но и понимать контекст, скрытые предположения и потенциальные противоречия. Задержка – это налог, который платит каждый запрос, и этот налог растет пропорционально неясности исходных данных.

Все системы стареют – вопрос лишь в том, делают ли они это достойно. Данная работа – не финальная точка, а лишь очередная итерация в непрерывном цикле улучшения. Необходимо признать, что идеальная автоматизация – это, вероятно, недостижимая цель. Важнее – научиться создавать системы, способные адаптироваться, учиться на ошибках и поддерживать работоспособность в постоянно меняющейся среде.


Оригинал статьи: https://arxiv.org/pdf/2511.04064.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 17:24