现行的AI从工程技术角度可以分为十个领域:前沿大模型、基准评估、提示思维链、检索增强生成、智能体、代码生成、视觉、声音、图像/视频扩散、微调,每个领域选出5篇代表作和相关工作,看完+实践=AI全栈大神!
注:该模型参数量仅为 140 亿,却在多个基准测试中表现优异,甚至超越了参数量更大的 Llama 3.3 70B(近五倍于 Phi-4)和 OpenAI 的 GPT-4o Mini;在数学竞赛问题中,Phi-4 的性能甚至超过了 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o。
中国政府星期四(12月26日)上调了中国2023年国内生产总值GDP,调整后达到129.4万亿元人民币(约合17.7万亿美元),比原先初步核算数据增加了3.4万 ...
Gemini 2.0 Flash Experimental 与 2.0 Experimental ... Deep Research 能够接收研究提示词、制定研究计划并为用户提供微调选项,之后执行全自动研究。
项目背景 如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。
强化微调技术革新,OpenAI推API实现专家模型定制。 【导读】只需几十个样本即可训练专家模型,强化微调RLF能掀起强化学习热潮吗?具体技术实现尚 ...
Gemini 2.0的一个显著特点是允许用户 ... OpenAI研究员演示,强化微调后的o1 mini测试通过率甚至比正式版o1高24%,比未强化微调的o1 mini提高了82%。
需要注意的是,每个子任务可以包含多个分段。对于第i条轨迹,从 Gemini 获得有根据的推理,定义为: 本节介绍EMMA-X 的架构,这是一种基于 7B 参数的视觉语言行动(VLA)模型,经过在分层具身数据上微调OpenVLA得到。如下图 3 所示,调整了文本提示,加入了当前 ...
为期12天的OpenAI,在第二天的时候发布了一个名叫“强化学习微调”的技术。不同于传统的监督微调(SFT),强化微调不仅仅是让模型“记住答案 ...
然而,实践中人们常常面临一个重大挑战:对整个大模型进行完整训练(即全量微调)需要极高的成本,如需要大量的图形处理器(GPU,Graphics ...
据 Jeff Dean 介绍,Gemini 2.0 Flash Thinking 还会明确展示其思考过程。 不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。 OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking ...