本文记录笔者参加AiDD 2024(AI+研发数字峰会)相关的议题，方便各位小伙伴快速了解最新AI理论研究和行业应用情况。

1.AiDD 2024概览

(1)会议简介

AI+研发数字峰会(AiDD)专注“AI技术和软件研发融合” ，AiDD 2024在上海举办，旨在”"帮助企业借助AI技术，推动研发全面进入数智化时代"。
大会特邀100+业界大咖分享行业洞察及专家见解，通过60+创新案例展示全新研发思路，设置15+个分论坛涵盖了软件研发全流程。

(2)议题分布

AiDD设置了15个分论坛，覆盖AI+研发全流程。

编程Copilot
算法与模型训练
知识工程
AI工具链与工程平台
智能运维
AI算力与优化
AI原生应用开发
智能需求工程
AI驱动产品创新
AI人才培养
数据智能
AI赋能测试
AI智能体
领域大模型
AI对齐

接下来，我们从3个方向总结相关会议议题：

基础模型及Agent
基础设施
LLM应用落地

2.方向1：基础模型及Agent

通过本次会议可以观察到2点趋势：

趋势1：2023年的研究热点还是LLM基础理论，2024年的热点逐步转向到VLM及多模态模型。
趋势2：LLM基础模型的成熟与落地，促成了Agent技术成为2024年的行业热点。

议题1：多模态大语言模型中的上下文学习

报告人：杨旭，南洋理工博士，东南大学副教授。
内容小结：
- 价值：通过ICL(上下文学习)，提升多模态大模型的字幕生成能力、视觉问答能力(VQA)、解决视觉语言任务。
- 成果：
  - 探索不同的上下文配置对图像字幕生成任务中的视觉-语言(VL)模型的影响，提出了四种图像选择策略和四种字幕分配策略。
  - 探索在视觉问答(VQA)任务中，如何配置有效的上下文序列以增强大型视觉语言模型(LVLMs)的上下文学习(ICL)性能。为了提高ICL的性能，作者设计了多种检索方法，并采用不同的策略来操作检索到的示例。
  - 通过在视觉问答(VQA)和图像字幕(IC)任务中的实验验证了使用语言模型配置ICD的方法的可行性，并通过全面的消融研究进一步探讨了数据集构建和ICD-LM开发设置对结果的影响。

议题2：基于多模态大语言模型的GUI智能体

报告人：张驰，腾讯研究科学家，入选斯坦福大学发布的《2023全球前2%顶尖科学家榜单》
内容小结：
- 产品：AppAgent是由腾讯公司开发的一种高级多模态代理框架，主要用于智能手机应用程序的操作和管理。它基于大型语言模型（LLM），能够通过直观的点击、滑动等手势与应用程序进行交互，模仿类似人类的动作。
- 成果：
  - 多模态交互：AppAgent结合了视觉和文本输入，使得代理能够理解和执行基于视觉信息的任务，这在以往的文本中心的Agent模型中是不可能的。
  - 无需系统后端访问：与传统的智能助手(如Siri)不同，AppAgent通过模拟用户在图形用户界面（GUI）上的操作，如点击和滑动，而不是依赖于系统后端访问，从而实现更高的灵活性和安全性。
  - 自主学习能力：AppAgent通过预定义操作与手机app交互来学习，也可以通过观察人类演示来学习。这些观察被记录成文档，供后续使用

议题3：多场景下智能体应用构建技巧

报告人：卢建晖，微软高级云技术布道师
内容小结：
- 产品：微软的Semantic Kernel构建智能体是一个轻量级的软件开发工具包，旨在帮助开发者更有效地将大型语言模型集成到他们的应用程序中。
- 价值：Semantic Kernel的价值在于它为开发者提供了一个高效的方式来利用大型语言模型解决复杂的问题，通过定义插件并自动协调这些插件与AI，开发者可以快速实现特定的功能或解决特定的问题。还允许开发者在应用程序中充分利用与Copilot和Bing相同的人工智能协调模式，从而增强应用程序的功能。

议题4：AIAgent认知框架与案例实践

报告人：黄佳，新加坡科技研究局AI研究员、技术作家。主攻方向LLM的开发和应用、AI for FinTech、AI for MedTech、持续学习等。著有多部AI相关畅销书。

个人感觉黄佳老师的议题比较出彩的一个，他不愧为技术作家，议题讲解也带有很强的技术科普风格，具体内容如下：

AI应用的五个层次：分L1~L5，目前很多AI助手停留在L3，但业界都在向L4，即Agent方向努力。
Agent方法论：黄老师的这个总结非常精彩。
Agent认知框架的四种设计模式：
Agent认知框架选型方法：
Agent研究综述：黄佳老师介绍了Agent研究综述，非常值得学习的一篇综述性论文。

议题5：个性化智能体价值观与社交能力的评估与对齐

报告人：高星，通义星尘算法负责人。
内容小结：
- 成果：
  - 通过基于专家指导原则的自我对齐，有效提升了人类价值观对齐的效果。
  - 通过多阶段迭代训练、CycleAlign方法、大小模型协同等，提升个性化角色的模型能力，打造类人智能体。

3.方向2：基础设施

议题1：构建AGI时代的推理基础设施

报告人：单一舟，南洋理工博士，东南大学副教授。
内容小结：
- 主题：介绍华为云构建满足AGI需求的推理基础设施的解决方案。
- 成果：
  - 以存代算，降低首字时延
  - 分离式内存弹性伸缩，降低推理集群成本
  - 资源感知调度，提升推理集群利用率

议题2：向量数据库大模型时代的基础设施构建

报告人：刘力，Zilliz首席工程师
内容小结：
- 主题：介绍了Zilliz Cloud产品，以及其关键特性，如：向量数据库即服务、Saas架构、Logic Clusters、分层存储、冷热数据分离、Zilliz Cloud Pipeline、Cardinal极致性能。

议题3：构建云原生算力基础设施驱动大模型创新实践

报告人：王羽中，杭州谐云科技有限公司技术总监
内容小结：
- 主题：介绍了支撑大模型的云原生算力基础设施解决方案，阐述了多项关键技术，如：跨算力中心的纳管和调度、异构资源纳管和调度、算力超分和优先级调度、算力资源共享和隔离、算力资源动态共享、多卡共享、精细化计费等。

议题4：AI原生应用开发工具链详解

报告人：罗义云，阿里云资深技术专家、PAI平台工程负责人
内容小结：
- 主题：介绍阿里云PAI的整体架构，阐述了模型微调工具链的模型微调、模型评测Eval-Scope、实验管理、量化压缩、BladeLLM等特性。

4.方向3：LLM应用落地

议题1：大模型加持如何改变需求工程任务

报告人：金芝，北京大学教授，IEEE/CCF/AAIA Fellow，高可信软件技术教育部重点实验室常务副主任。
内容小结：介绍大模型对需求工程的改变
- 需求相关的提示模式：《Requirements Engineering using Generative AI：Prompts and Prompting Patterns》阐述了5种提示模式。
- 人机协作架构设计：《Towards Human-Bot Collaborative Software Architecting with ChatGPT》展示了人类和ChatGPT协同开展架构设计的实践。
- AI Agent协同目标建模：《MAPE-K Loop-based Goal Model Generation Using Generative AI》论述了一种由AI Agent扮演需求分析师、领域业务专家的角色，共同开展设计建模的方法。

议题2：智能化研发在百度的落地

报告人：张立理，百度前端架构师，百度前端CMC主席，技术组织委员会 Web方向负责人。
内容小结：
- 如何构建强力的代码模型：构造高质量代码数据集、多种代码生成模式、降低模型对算力的依赖提升计算速度。
- 如何有效服务产品用户：多语言多IDE覆盖、提供丰富的编码器能力、基于研发现场知识增强、构建与实践紧密结合的模型训练飞轮。