Agentic AI Atlas

II.

Workflow overview

workflow:agent-evaluation-cycle

Reference · live

Agent Evaluation Cycle overview

Rigorous evaluation workflow for measuring the accuracy, reliability, and safety of AI agent systems across defined benchmark tasks and adversarial scenarios. The ML engineer assembles an evaluation harness with a curated dataset of prompts, expected outputs, and rubric-based scoring functions. The backend engineer integrates the harness into CI so every model or prompt change triggers an automated eval run. Regression thresholds enforce that new versions do not degrade on prior benchmarks, while exploratory eval sessions probe edge cases and failure modes that inform the next iteration of the agent's architecture or system prompt.

WorkflowOutgoing · 5Incoming · 40

Attributes

displayName

Agent Evaluation Cycle

description

workflowKind

development

triggerType

on-demand

typicalCadence

per-sprint

complexity

complex

Outgoing edges

applies_to_domain1

domain:software-engineering·DomainSoftware Engineering

involves_role4

role:ml-engineer·RoleMachine Learning Engineer
role:backend-engineer·RoleBackend Engineer
role:research-engineer·RoleResearch Engineer
role:qa-engineer·RoleQA Engineer

Incoming edges

follows_workflow4

stack-profile:multi-agent-orchestration·StackProfile
stack-profile:voice-ai-agent·StackProfileVoice AI Agent Stack (Whisper, TTS, WebSocket, FastAPI, React)
stack-profile:autonomous-agent-fleet·StackProfile
stack-profile:prompt-engineering-workbench·StackProfilePrompt Engineering Workbench (TypeScript, React, PostgreSQL, LLM APIs, Redis)

lib_implements_workflow30

lib-process:ai-agents-conversational--ab-testing-conversational·LibraryProcessspecializations/ai-agents-conversational/ab-testing-conversational
lib-process:ai-agents-conversational--add-app-to-mcp-server·LibraryProcessspecializations/ai-agents-conversational/add-app-to-mcp-server
lib-process:ai-agents-conversational--advanced-rag-patterns·LibraryProcessspecializations/ai-agents-conversational/advanced-rag-patterns
lib-process:ai-agents-conversational--agent-evaluation-framework·LibraryProcessspecializations/ai-agents-conversational/agent-evaluation-framework
lib-process:ai-agents-conversational--agent-evaluation-framework·LibraryProcessspecializations/ai-agents-conversational/agent-evaluation-framework
lib-process:ai-agents-conversational--agent-performance-optimization·LibraryProcessspecializations/ai-agents-conversational/agent-performance-optimization
lib-process:ai-agents-conversational--autonomous-task-planning·LibraryProcessspecializations/ai-agents-conversational/autonomous-task-planning
lib-process:ai-agents-conversational--bias-detection-fairness·LibraryProcessspecializations/ai-agents-conversational/bias-detection-fairness
lib-process:ai-agents-conversational--content-moderation-safety·LibraryProcessspecializations/ai-agents-conversational/content-moderation-safety
lib-process:ai-agents-conversational--conversational-memory-system·LibraryProcessspecializations/ai-agents-conversational/conversational-memory-system
lib-process:ai-agents-conversational--convert-web-app-to-mcp·LibraryProcessspecializations/ai-agents-conversational/convert-web-app-to-mcp
lib-process:ai-agents-conversational--create-mcp-app·LibraryProcessspecializations/ai-agents-conversational/create-mcp-app
lib-process:ai-agents-conversational--custom-tool-development·LibraryProcessspecializations/ai-agents-conversational/custom-tool-development
lib-process:ai-agents-conversational--empathetic-response-generation·LibraryProcessspecializations/ai-agents-conversational/empathetic-response-generation
lib-process:ai-agents-conversational--entity-extraction-slot-filling·LibraryProcessspecializations/ai-agents-conversational/entity-extraction-slot-filling
lib-process:ai-agents-conversational--intent-classification-system·LibraryProcessspecializations/ai-agents-conversational/intent-classification-system
lib-process:ai-agents-conversational--knowledge-base-qa·LibraryProcessspecializations/ai-agents-conversational/knowledge-base-qa
lib-process:ai-agents-conversational--llm-fine-tuning-conversational·LibraryProcessspecializations/ai-agents-conversational/llm-fine-tuning-conversational
lib-process:ai-agents-conversational--llm-observability-monitoring·LibraryProcessspecializations/ai-agents-conversational/llm-observability-monitoring
lib-process:ai-agents-conversational--long-term-memory-management·LibraryProcessspecializations/ai-agents-conversational/long-term-memory-management
lib-process:ai-agents-conversational--multi-agent-system·LibraryProcessspecializations/ai-agents-conversational/multi-agent-system
lib-process:ai-agents-conversational--multi-modal-agent·LibraryProcessspecializations/ai-agents-conversational/multi-modal-agent
lib-process:ai-agents-conversational--prompt-engineering-workflow·LibraryProcessspecializations/ai-agents-conversational/prompt-engineering-workflow
lib-process:ai-agents-conversational--prompt-injection-defense·LibraryProcessspecializations/ai-agents-conversational/prompt-injection-defense
lib-process:ai-agents-conversational--react-agent-implementation·LibraryProcessspecializations/ai-agents-conversational/react-agent-implementation
lib-process:ai-agents-conversational--regression-testing-agent·LibraryProcessspecializations/ai-agents-conversational/regression-testing-agent
lib-process:ai-agents-conversational--self-reflection-agent·LibraryProcessspecializations/ai-agents-conversational/self-reflection-agent
lib-process:ai-agents-conversational--system-prompt-guardrails·LibraryProcessspecializations/ai-agents-conversational/system-prompt-guardrails
lib-process:ai-agents-conversational--tool-safety-validation·LibraryProcessspecializations/ai-agents-conversational/tool-safety-validation
lib-process:ai-agents-conversational--voice-enabled-conversational·LibraryProcessspecializations/ai-agents-conversational/voice-enabled-conversational

supports_work6

tool:fireworks-ai·ToolFireworks AI
tool:mistral·ToolMistral AI
tool:openai·ToolOpenAI
tool:deepseek·ToolDeepSeek
tool-server:mcp-mistral-ai-candidate·ToolServerMistral AI MCP candidate
tool-server:mcp-deepseek-candidate·ToolServerDeepSeek MCP candidate

II.

Workflow overview

workflow:agent-evaluation-cycle

Reference · live

Agent Evaluation Cycle overview

WorkflowOutgoing · 5Incoming · 40

Attributes

displayName

Agent Evaluation Cycle

description

workflowKind

development

triggerType

on-demand

typicalCadence

per-sprint

complexity

complex

Outgoing edges

applies_to_domain1

domain:software-engineering·DomainSoftware Engineering

involves_role4

role:ml-engineer·RoleMachine Learning Engineer
role:backend-engineer·RoleBackend Engineer
role:research-engineer·RoleResearch Engineer
role:qa-engineer·RoleQA Engineer

Incoming edges

follows_workflow4

stack-profile:multi-agent-orchestration·StackProfile
stack-profile:voice-ai-agent·StackProfileVoice AI Agent Stack (Whisper, TTS, WebSocket, FastAPI, React)
stack-profile:autonomous-agent-fleet·StackProfile
stack-profile:prompt-engineering-workbench·StackProfilePrompt Engineering Workbench (TypeScript, React, PostgreSQL, LLM APIs, Redis)

lib_implements_workflow30

lib-process:ai-agents-conversational--ab-testing-conversational·LibraryProcessspecializations/ai-agents-conversational/ab-testing-conversational
lib-process:ai-agents-conversational--add-app-to-mcp-server·LibraryProcessspecializations/ai-agents-conversational/add-app-to-mcp-server
lib-process:ai-agents-conversational--advanced-rag-patterns·LibraryProcessspecializations/ai-agents-conversational/advanced-rag-patterns
lib-process:ai-agents-conversational--agent-evaluation-framework·LibraryProcessspecializations/ai-agents-conversational/agent-evaluation-framework
lib-process:ai-agents-conversational--agent-evaluation-framework·LibraryProcessspecializations/ai-agents-conversational/agent-evaluation-framework
lib-process:ai-agents-conversational--agent-performance-optimization·LibraryProcessspecializations/ai-agents-conversational/agent-performance-optimization
lib-process:ai-agents-conversational--autonomous-task-planning·LibraryProcessspecializations/ai-agents-conversational/autonomous-task-planning
lib-process:ai-agents-conversational--bias-detection-fairness·LibraryProcessspecializations/ai-agents-conversational/bias-detection-fairness
lib-process:ai-agents-conversational--content-moderation-safety·LibraryProcessspecializations/ai-agents-conversational/content-moderation-safety
lib-process:ai-agents-conversational--conversational-memory-system·LibraryProcessspecializations/ai-agents-conversational/conversational-memory-system
lib-process:ai-agents-conversational--convert-web-app-to-mcp·LibraryProcessspecializations/ai-agents-conversational/convert-web-app-to-mcp
lib-process:ai-agents-conversational--create-mcp-app·LibraryProcessspecializations/ai-agents-conversational/create-mcp-app
lib-process:ai-agents-conversational--custom-tool-development·LibraryProcessspecializations/ai-agents-conversational/custom-tool-development
lib-process:ai-agents-conversational--empathetic-response-generation·LibraryProcessspecializations/ai-agents-conversational/empathetic-response-generation
lib-process:ai-agents-conversational--entity-extraction-slot-filling·LibraryProcessspecializations/ai-agents-conversational/entity-extraction-slot-filling
lib-process:ai-agents-conversational--intent-classification-system·LibraryProcessspecializations/ai-agents-conversational/intent-classification-system
lib-process:ai-agents-conversational--knowledge-base-qa·LibraryProcessspecializations/ai-agents-conversational/knowledge-base-qa
lib-process:ai-agents-conversational--llm-fine-tuning-conversational·LibraryProcessspecializations/ai-agents-conversational/llm-fine-tuning-conversational
lib-process:ai-agents-conversational--llm-observability-monitoring·LibraryProcessspecializations/ai-agents-conversational/llm-observability-monitoring
lib-process:ai-agents-conversational--long-term-memory-management·LibraryProcessspecializations/ai-agents-conversational/long-term-memory-management
lib-process:ai-agents-conversational--multi-agent-system·LibraryProcessspecializations/ai-agents-conversational/multi-agent-system
lib-process:ai-agents-conversational--multi-modal-agent·LibraryProcessspecializations/ai-agents-conversational/multi-modal-agent
lib-process:ai-agents-conversational--prompt-engineering-workflow·LibraryProcessspecializations/ai-agents-conversational/prompt-engineering-workflow
lib-process:ai-agents-conversational--prompt-injection-defense·LibraryProcessspecializations/ai-agents-conversational/prompt-injection-defense
lib-process:ai-agents-conversational--react-agent-implementation·LibraryProcessspecializations/ai-agents-conversational/react-agent-implementation
lib-process:ai-agents-conversational--regression-testing-agent·LibraryProcessspecializations/ai-agents-conversational/regression-testing-agent
lib-process:ai-agents-conversational--self-reflection-agent·LibraryProcessspecializations/ai-agents-conversational/self-reflection-agent
lib-process:ai-agents-conversational--system-prompt-guardrails·LibraryProcessspecializations/ai-agents-conversational/system-prompt-guardrails
lib-process:ai-agents-conversational--tool-safety-validation·LibraryProcessspecializations/ai-agents-conversational/tool-safety-validation
lib-process:ai-agents-conversational--voice-enabled-conversational·LibraryProcessspecializations/ai-agents-conversational/voice-enabled-conversational

supports_work6

tool:fireworks-ai·ToolFireworks AI
tool:mistral·ToolMistral AI
tool:openai·ToolOpenAI
tool:deepseek·ToolDeepSeek
tool-server:mcp-mistral-ai-candidate·ToolServerMistral AI MCP candidate
tool-server:mcp-deepseek-candidate·ToolServerDeepSeek MCP candidate