双皮奶为什么叫双皮奶| 风寒感冒吃什么药效果好| 骨肉相连是什么肉| 心里不舒服挂什么科| 什么药治便秘最好最快| 甲沟炎是什么样子的| 阿扎西是什么意思| 准确值是什么意思| 麻痹是什么意思| 为什么生理期过后最容易掉秤| ncu病房是什么意思| 吃什么| dd是什么意思| 世界上有什么花| 产假从什么时候开始算| 贝塔是什么意思| 祛斑喝什么花茶最有效| 碱性磷酸酶偏高吃什么能降下来呢| 2028年属什么生肖| 发挥是什么意思| 8月19日是什么星座| 农历八月初五是什么星座| 今年40岁属什么生肖| 脸上爱出汗是什么原因| 心气虚吃什么药| 南宁有什么好玩的地方| 南京市长是什么级别| 无精是什么原因造成的| 桦树茸有什么作用| cos什么意思| 发烧喉咙痛吃什么药好| 1998年什么命| 眼睛有红血丝是什么原因| 直肠炎吃什么药最好| 大姨妈来了不能吃什么东西| 1946年属什么生肖属相| 英国的全称是什么| 黑加京念什么| 高血压喝什么茶| 尿蛋白十一是什么意思| 什么是消炎药| 梦见抱小女孩是什么意思| 木吉他什么牌子比较好| 83年属猪是什么命| 胃炎吃什么消炎药| 炖猪排骨放什么调料| 中将是什么级别的干部| 六月二十四是什么日子| 什么是阴虚火旺| 蚊子讨厌什么气味| 寻麻疹是什么原因引起的| 精神病的前兆是什么| 痛风在医院挂什么科| 胆结石能吃什么| 儿童呕吐吃什么药| 溶血症是什么症状| 小丫头是什么意思| 人流后吃什么| 不值一提是什么意思| 拔罐后发痒是什么原因| 怀孕前三个月不能吃什么| 什么的贝壳| 喝什么利尿效果最好| 衣柜放什么代替樟脑丸| 1969年属什么生肖| 11月2号什么星座| 喝蜂蜜水有什么好处和坏处| 三七有什么功效和作用| 羽毛球拍什么牌子好| 嘴角疱疹用什么药膏| 6月初三是什么日子| 脖子后面正中间有痣代表什么| g6pd是检查什么的| 孟德是什么意思| 腋毛癣用什么药膏最好| 动物园里有什么动物| 缺铁性贫血吃什么食物| 试纸一条红杠是什么意思| 小便很臭是什么原因| 什么叫情人| 血压偏低吃什么东西补最好| 什么东西能吃能喝又能坐| 腿麻是什么病的前兆吗| 牙疼挂什么科| 宫颈口在什么位置| 泥鳅不能和什么一起吃| 嘴唇肿是什么原因| 为什么故宫龙椅坐不得| 巴基斯坦是什么语言| 痔疮瘙痒用什么药| 早上起床眼睛浮肿是什么原因| 殁年是什么意思| msi是什么比赛| 刘三姐是什么生肖| 什么是工作性质| 撇嘴是什么意思| 秋天什么水果成熟| 女孩叫兮兮是什么意思| 金樱子配什么才壮阳| 什么鱼炖汤好喝又营养| 姓黑的都是什么族| 小鼠吃什么| 打歌是什么意思| 郁是什么生肖| 四月是什么月| sheep是什么意思| 脾胃虚寒吃什么药| 血用什么可以洗掉| 把妹什么意思| 白玫瑰代表什么意思| acs是什么病| 为什么尽量抽混合型烟| 乙肝属于什么科| 为什么同房会出血| 71年什么时候退休| 男人爱出汗是什么原因| 党参不能和什么一起吃| 出虚汗是什么原因引起的怎么调理| 始于初见止于终老是什么意思| 鸡毛信是什么意思| 14年婚姻是什么婚| 手一直抖是什么原因| 甄嬛传什么时候上映的| 敏使朗是什么药| 夕阳什么意思| 121是什么意思| 修造是什么意思| 下嘴唇跳动是什么原因| 什么是胰腺| 忽必烈和成吉思汗是什么关系| 看望病人送什么东西| 跑步大腿痒是什么原因| 肝看什么科| 室上性早搏是什么意思| 什么是撤退性出血| 突破性出血是什么意思| 洗面奶是什么意思| 荷花代表什么生肖| 卫生纸属于什么垃圾| 那敢情好是什么意思| 咳咳是什么意思| 复原乳是什么意思| 硫酸亚铁是什么颜色| 96999是什么电话| 什么是包容| 鼻翼长痘是什么原因| 左侧脖子疼是什么原因| 怀疑哮喘要做什么检查| 为什么越吃越饿| 牛肉炒什么好吃| 毛周角化症是什么原因引起的| 头发容易断是什么原因| 什么飞船| 左肾结晶是什么意思| 男人后背有痣代表什么| 亚甲减是什么意思| 皮角是什么病| 孕妇感冒可以吃什么感冒药| 268数字代表什么意思| ad吃到什么时候| 你太low了是什么意思| 中医康复技术学什么| 咳嗽绿痰是什么原因| 宁的五行属性是什么| 成何体统是什么意思| 小便黄是什么原因引起的| 3月31号什么星座| 孕吐是什么时候开始| 十月初四是什么星座| 卒中什么意思| 姜什么时候种植最好| 夏天喝什么汤好| 基数大是什么意思| 看甲状腺去医院挂什么科| 植物神经功能紊乱吃什么药| 什么是免疫组化检查| 百分比是什么意思| 血糖高吃什么食物最好最佳| 骨骺是什么意思| 阎维文什么军衔| 胃溃疡a2期是什么意思| 腰臀比是什么意思| 心腹是什么意思| 栀子花开有什么寓意| 水杯什么材质的好| 结婚长明灯有什么讲究| 女人吃什么补肾| 拾荒者是什么意思| 红豆和什么搭配最好| 甲亢可以吃什么水果| 防微杜渐是什么意思| 自贸区什么意思| 肠炎可以吃什么食物| 山羊吃什么| 孕期吃什么水果好| 慢性疾病都包括什么病| 腰椎生理曲度变直什么意思| 胃不好吃什么水果好| 梦见女儿哭意味着什么| 两面三刀是什么生肖| 国窖1573是什么香型| 掉钱了是什么预兆| 口舌是非是什么意思| 用什么擦地最干净| 橘黄色是什么颜色| 荤菜是什么意思| 黄磊为什么不娶刘若英| 氨是什么| 脸霜什么牌子的好| 被蜈蚣咬了用什么药| 夜间睡觉口干是什么原因| 拉尿分叉是什么原因| 哺乳期能吃什么水果| 控告是什么意思| 什么情况需要做胃镜| 5月28号是什么日子| 为什么会脚麻| 女人吃什么排湿气最快| 苕皮是什么| 溶血性黄疸是什么原因引起的| 帕金森吃什么药好得快| 平安顺遂什么意思| 背道而驰是什么意思| 空调外机风扇不转是什么原因| 白包是什么意思| 人为什么会打呼噜| 梦见捡菌子是什么预兆| lof是什么意思| 妊娠阴性是什么意思| 什么人容易得圆锥角膜| 果酸是什么| 生物冰袋里面是什么| 姓叶的男孩取什么名字好| 天仙是什么意思| 吃大米配什么菜| 网球肘用什么方法能彻底治好呢| 舌面有裂纹是什么原因| 什么是小暑| kako是什么牌子| 管状腺瘤是什么病| 蒲公英泡水喝有什么好处| 对策是什么意思| 狗狗尾巴溃烂用什么药| 定性和定量是什么意思| 寄大件用什么物流便宜| 一什么家| 史诗级什么意思| 脚烧是什么原因| 什么的南瓜| 拉肚子肚子疼吃什么药| 妲是什么意思| 儿童查微量元素挂什么科| 看见老鼠有什么预兆| 欲情故纵是什么意思| 质地是什么意思| phe是什么氨基酸| 血管为什么是青色的| 舌头白腻厚苔是什么原因| 摩羯后面是什么星座| 喝竹叶水有什么好处| 碘化银什么颜色| 什么叫白内障| 法官是什么级别| 房间为什么有蟑螂| 百度

Try to extend agent mode in VS Code!

PL/SQL Challenge 每日一题:2017-3-30 对象指针函数

百度 陈希同志强调,组建中央和国家机关工委是深化党和国家机构改革的重要内容,是推进党的建设新的伟大工程的重要举措。

You can evaluate models, prompts, and agents by comparing their outputs to ground truth data and computing evaluation metrics. AI Toolkit streamlines this process. Upload datasets and run comprehensive evaluations with minimal effort.

Screenshot showing the start of an evaluation in AI Toolkit.

Evaluate prompts and agents

You can evaluate prompts and agents in Agent Builder by selecting the Evaluation tab. Before you evaluate, run your prompts or agents against a dataset. Read more about Bulk run to learn how to work with a dataset.

To evaluate prompts or agents:

  1. In Agent Builder, select the Evaluation tab.
  2. Add and run the dataset you want to evaluate.
  3. Use the thumbs up and down icons to rate responses and keep a record of your manual evaluation.
  4. To add an evaluator, select New Evaluation.
  5. Select an evaluator from the list of built-in evaluators, such as F1 score, relevance, coherence, or similarity.
    Note

    Rate limits might apply when using GitHub-hosted models to run the evaluation.

  6. Select a model to use as a judging model for the evaluation, if required.
  7. Select Run Evaluation to start the evaluation job.

Screenshot showing the Evaluation tab in Agent Builder with options to select evaluators, judging models, and run evaluation against a dataset.

Versioning and evaluation comparison

AI Toolkit supports versioning of prompts and agents, so you can compare the performance of different versions. When you create a new version, you can run evaluations and compare results with previous versions.

To save a new version of a prompt or agent:

  1. In Agent Builder, define the system or user prompt, add variables and tools.
  2. Run the agent or switch to the Evaluate tab and add a dataset to evaluate.
  3. When you are satisfied with the prompt or agent, select Save as New Version from the toolbar.
  4. Optionally, provide a version name and press Enter.

View version history

You can view the version history of a prompt or agent in Agent Builder. The version history shows all versions, along with evaluation results for each version.

Screenshot showing the Version History dialog with a list of saved versions of a prompt or agent.

In version history view, you can:

  • Select the pencil icon next to the version name to rename a version.
  • Select the trash icon to delete a version.
  • Select a version name to switch to that version.

Compare evaluation results between versions

You can compare evaluation results of different versions in Agent Builder. Results are displayed in a table, showing scores for each evaluator and the overall score for each version.

To compare evaluation results between versions:

  1. In Agent Builder, select the Evaluation tab.
  2. From the evaluation toolbar, select Compare.
  3. Choose the version you want to compare with from the list.
    Note

    Compare functionality is only available in full screen mode of Agent Builder for better visibility of the evaluation results. You can expand the Prompt section to see the model and prompt details.

  4. The evaluation results for the selected version are displayed in a table, allowing you to compare the scores for each evaluator and the overall score for each version.

Screenshot showing the Evaluation tab in Agent Builder with the interface for comparing evaluation results between different versions.

Built-in evaluators

AI Toolkit provides a set of built-in evaluators to measure the performance of your models, prompts, and agents. These evaluators compute various metrics based on your model outputs and ground truth data.

For agents:

  • Intent Resolution: Measures how accurately the agent identifies and addresses user intentions.
  • Task Adherence: Measures how well the agent follows through on identified tasks.
  • Tool Call Accuracy: Measures how well the agent selects and calls the correct tools.

For general purposes:

  • Coherence: Measures logical consistency and flow of responses.
  • Fluency: Measures natural language quality and readability.

For RAG (Retrieval Augmented Generation):

  • Retrieval: Measures how effectively the system retrieves relevant information.

For textual similarity:

  • Similarity: AI-assisted textual similarity measurement.
  • F1 Score: Harmonic mean of precision and recall in token overlaps between response and ground truth.
  • BLEU: Bilingual Evaluation Understudy score for translation quality; measures overlaps in n-grams between response and ground truth.
  • GLEU: Google-BLEU variant for sentence-level assessment; measures overlaps in n-grams between response and ground truth.
  • METEOR: Metric for Evaluation of Translation with Explicit Ordering; measures overlaps in n-grams between response and ground truth.

The evaluators in AI Toolkit are based on the Azure Evaluation SDK. To learn more about observability for generative AI models, see the Azure AI Foundry documentation.

Start a standalone evaluation job

  1. In the AI Toolkit view, select TOOLS > Evaluation to open the Evaluation view.

  2. Select Create Evaluation, then provide the following information:

    • Evaluation job name: Use the default or enter a custom name.
    • Evaluator: Select from built-in or custom evaluators.
    • Judging model: Select a model to use as the judging model, if required.
    • Dataset: Select a sample dataset for learning, or import a JSONL file with the fields query, response, and ground truth.
  3. A new evaluation job is created. You are prompted to open the evaluation job details.

    Screenshot showing the Open Evaluation dialog in AI Toolkit.

  4. Verify your dataset and select Run Evaluation to start the evaluation.

    Screenshot showing the Run Evaluation dialog in AI Toolkit.

Monitor the evaluation job

After you start an evaluation job, you can view its status in the evaluation job view.

Screenshot showing a running evaluation in AI Toolkit.

Each evaluation job includes a link to the dataset used, logs from the evaluation process, a timestamp, and a link to the evaluation details.

Find results of evaluation

The evaluation job details view shows a table of results for each selected evaluator. Some results might include aggregate values.

You can also select Open In Data Wrangler to open the data with the Data Wrangler extension.

Screenshot showing the Data Wrangler extension with evaluation results.

Create custom evaluators

You can create custom evaluators to extend the built-in evaluation capabilities of AI Toolkit. Custom evaluators let you define your own evaluation logic and metrics.

Screenshot showing the custom evaluator creation interface in AI Toolkit.

To create a custom evaluator:

  1. In the Evaluation view, select the Evaluators tab.

  2. Select Create Evaluator to open the creation form.

    Screenshot showing the form to create a new custom evaluator.

  3. Provide the required information:

    • Name: Enter a name for your custom evaluator.
    • Description: Describe what the evaluator does.
    • Type: Select the type of evaluator: LLM-based or Code-based (Python).
  4. Follow the instructions for the selected type to complete the setup.

  5. Select Save to create the custom evaluator.

  6. After you create the custom evaluator, it appears in the list of evaluators for selection when you create a new evaluation job.

LLM-based evaluator

For LLM-based evaluators, define the evaluation logic using a natural language prompt.

Write a prompt to guide the evaluator in assessing specific qualities. Define criteria, provide examples, and use variables like or for flexibility. Customize the scale or feedback style as needed.

Make sure the LLM outputs a JSON result, for example: {"score": 4, "reason": "The response is relevant but lacks detail."}

You can also use the Examples section to get started with your LLM-based evaluator.

Screenshot showing the LLM-based evaluator configuration in AI Toolkit.

Code-based evaluator

For code-based evaluators, define the evaluation logic using Python code. The code should return a JSON result with the evaluation score and reason.

Screenshot showing the Evaluators tab in AI Toolkit with options for creating code-based evaluators.

AI Toolkit provides a scaffold based on your evaluator name and whether you use an external library.

You can modify the code to implement your evaluation logic:

# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
    # Add your evaluator logic to calculate the score.

    # Return an object with score and an optional string message to display in the result.
    return {
        "score": 3,
        "reason": "This is a placeholder for the evaluator's reason."
    }

What you learned

In this article, you learned how to:

  • Create and run evaluation jobs in AI Toolkit for VS Code.
  • Monitor the status of evaluation jobs and view their results.
  • Compare evaluation results between different versions of prompts and agents.
  • View version history for prompts and agents.
  • Use built-in evaluators to measure performance with various metrics.
  • Create custom evaluators to extend the built-in evaluation capabilities.
  • Use LLM-based and code-based evaluators for different evaluation scenarios.
背痛是什么原因 定增是什么意思 梦见煮饭是什么意思 肉丝炒什么菜好吃 橘黄色是什么颜色
什么情况下做冠脉ct 灵芝有什么功效与作用 眩晕症吃什么药 活性炭是什么东西 ACEI是什么药
血小板是什么颜色的 支气管哮喘吃什么药 impress是什么意思 两只小船儿孤孤零零是什么歌 金匮肾气丸有什么作用
结石是什么原因引起的 心脏缺血吃什么药好 舍是什么结构 爱趴着睡觉是什么原因 梦见和死去的亲人说话是什么意思
牙痛 吃什么药hcv8jop5ns1r.cn 刮痧有什么作用hcv8jop2ns4r.cn 9.29是什么星座hcv9jop5ns5r.cn 供血不足吃什么好sscsqa.com 章鱼是什么动物hcv9jop6ns1r.cn
讹诈是什么意思aiwuzhiyu.com 二氧化碳是什么气体zhiyanzhang.com 咳嗽黄痰是什么原因hcv7jop5ns2r.cn 红枣桂圆泡水喝有什么好处和坏处hcv8jop9ns4r.cn 阴囊瘙痒用什么药最好hcv8jop2ns3r.cn
个体差异是什么意思hcv9jop7ns3r.cn 红细胞数目偏高是什么意思hcv9jop6ns6r.cn 为什么射出的精子里有淡红色hcv9jop2ns5r.cn 秋葵有什么功效hcv8jop0ns7r.cn 舟状腹见于什么疾病hcv8jop7ns0r.cn
ade是什么意思jingluanji.com 怀孕肚子痒是什么原因hcv9jop6ns6r.cn 喝酒过敏是什么原因hcv9jop3ns9r.cn 心脏有个小洞叫什么病hcv8jop5ns3r.cn 湖南简称什么tiangongnft.com
百度