端区设备通过AI模型的新体系结构指导它。本周五清晨,Google正式推出了其新的多式联运伪造模型Gemma 3N。型号,重量:https://huggingface.co/collections/google/google/gemma-3n-685065323f5984ef315c93f4docuent:https://ai.google.dev/gemma/gemma/gemma/docs/gemma/gemma-3n博客: https://developers.googleblog.com/en/introduing-gemma-3n-de-developer-guide/google说,Gemma 3N代表了设备侧面AI的重要进步。它具有功能强大的多个容量,可以使用移动电话,平板电脑和笔记本电脑等设备,并且其性能只能通过去年的高级云模型来体验。 Gemma 3N的特征包括以下方面:多模式设计:Gemma 3N允许图像,音频,视频,文本输入和文本输出。特别在设备侧面进行了优化:Gemma 3N模型的设计为设计方法,并提供了两个有效的参数尺寸E2B和E4B。原始标准杆Ameter编号为5B和8B,但是通过建筑创新,执行中的内存的职业可与传统模型2B和4B相媲美,这些模型仅在内存2 GB(E2B)和3GB(E4B)时执行。建筑的Bolpe:在Gemma 3N的心脏中,有新的组件,例如Machiner的体系结构来计算灵活性,层(PLE)以进行内存效率,这是用于使用Mobilenet-V5的设备和视觉编码器的新音频,用于使用设备和视觉编码器。质量改进:Gemma 3N可在多语言中实现质量改进(接受140条文本和35种语言的多模式理解),数学,编码和推理。 E4B LMARENA版本已赢得了1,300多个奖,这使其成为第一个符合此参考点100亿参数的模型。 Google Esdijo为了达到设备性能的增长,必须彻底重新考虑该模型。 Gemma 3N的独特移动架构是基本的,一切始于拟合。机械师:建筑心脏中心,多个Gemma 3N尺寸的模型,这是一种专门为弹性推理而构建的新嵌套变压器。您可以将其视为俄罗斯娃娃:最大的模型包括其自身较小且功能齐全的版本。这种方法扩展了对所有误差转换的简单性交表示俄罗斯娃娃的概念。因此,当机器训练4B有效参数模型(E4B)时,同时优化了有效参数2B(E2B)的子模型,如上图所示。这为开发人员提供了两个强大的特征和案例。预扣模型:开发人员可以下载和使用E4B模型以进行更高的性能,ORUSE独立的E2B子模型提取以提供更快的推理速度。与混合n匹配的大小相处。有关基于特定硬件限制的更详细的控制。该技术允许在E4B模型中进行精确的参数,主要调整每个层(8192至16384)的预先网络隐藏层的尺寸,并有选择地省略了特定层。 Google还发布了一个机械实验室,向您展示如何确定这些更好的模型,以评估MMLU等参考点中的不同配置。 MMLU以各种大小的模型(使用Mix-n-patch)获得Gemma 3N Protrado 3n。将来,Machiner的体系结构为灵活的执行铺平了道路。此功能不是今天发布的实现的一部分,但是ISA唯一实现E4B模型可以动态更改推理路由E4B和E2B,从而根据当前任务和设备负载来实时优化内存的性能和使用。 CAPA每层层(PLE):释放更多存储效率的Gemma 3N模型,使用层逐层(PLE)使用层增压技术。为实现设备而设计,这是创新可以显着提高模型的质量,而不会增加设备加速器(GPU/TPU)所需的高速度内存足迹。 Gemma 3N E2B和E4B模型中的参数总数分别为5B和8B,但是PLE允许您在CPU上加载大多数参数(与每一层相关的嵌入式)以有效计算。这意味着只有核心传输权重(E2B约2B,E4B的大约4B)必须存储在通常限制的theacelerator的记忆中(VRAM)。如果每层集成在一起,则可以在AI加速器中仅加载约2B参数时使用3N E2B Gemma。共享KV缓存:长上下文处理过程中的较长内容输入(例如音频传输和视频传输序列)对于设备侧面的许多高级多模式应用都很重要。 Gemma 3N提出了KV缓存的交换。它旨在加速首次获取传输响应应用程序的令牌(直到时间)。 KV缓存交换优化了模型处理初始输入处理阶段的方式(通常称为“预先关联”阶段)。与Gemma 3 4B相比,在填充之前,局部和全球护理机制的平均水平的键和值直接与所有较高的水平共享,从而显着提高了性能。这意味着模型可以比以往任何时候都提取和理解更长的信号信号。音频理解:在文本中引入语音并从语音角度进行翻译时,Gemma 3N使用基于通用音频(USM)模型的高级音频编码器。编码器是每160毫秒的音频(每秒生成大约6个令牌),并将其集成为语言模型的条目,以提供声音上下文的良好表示。该集成的音频功能解锁了设备开发的关键特征,例如:自动VO冰识别(ASR):在设备上向高质量文本的语音转录。自动语音翻译(AST):将口语翻译成另一种语言。通过实践,我们发现Gemma 3N的AST翻译效应在英语和西班牙语,法语,意大利语和葡萄牙语之间特别出色。对于诸如发音翻译等任务,使用“思维链”指标可以显着改善翻译效果。一个示例如下:BOS start_of_turn UserTranscribe用西班牙语翻译以下语音段,然后用英语翻译:start_of_of_oudio end_of_turn start_of_of_f_f_turn modelgemma 3n编码器已经可以在版本中处理长达30秒的编码器,但这不是一个限制。基础音频编码器是一个传输编码器,可以通过额外的长音频训练来处理任何长度的音频。随后的实现解锁低潜伏期的长范围应用。 Mobilenet-V5:除了整数额定的音频功能,Agma 3N,一种前卫视觉编码器,配备了新的Mobilenet-V5-300M高效率视觉编码器,它为DissEdge正面的多模式任务提供了提示性能。 Mobilenet-V5专为限制硬件的灵活性和功能而设计。开发人员是:多个输入分辨率:对256 x 256、512 x 512、768 x 768像素的分辨率的本机支持,这使开发人员可以平衡性能和特定应用程序的详细信息。一般的视觉理解:联合培训是在各种多模式数据集中进行的,并在各种图像和视频理解任务方面效果很好。高性能:Google P用于实时设备视频分析和交互式体验IXEL可处理高达6秒的1秒钟。通过各种建筑创新(包括Mobilenet-V4模块的高级基础)实现了这种表现水平(包括环球L投资瓶颈和移动MQA)。随着混合深度锥体模型的显着扩展,它是最大的Mobilenet-V4变体的10倍。新的VLM融合适配器多量表,以提高令牌的质量,从而提高精度和效率。由于新的建筑设计和高级蒸馏技术,Mobilenet-V5-300M明显优于Gemma 3参考SOB(接受Siglip培训,无蒸馏)。借助Google像素边缘的TPU,它可以实现量化(无量化的6.5倍),所需参数降低46%,4倍内存足迹和13倍加速度,具有高精度的视觉语言任务。 Google说,这些详细信息显示在Mobilenet-V5的下一份技术报告中。 5月20日,Google DeepMind在I/O会议上宣布了Gemma-3N。 Google的第一个Gemma模型是在去年年初推出的,该系列的累积排放量更大1.6亿。
Google开源Gemma 3N:您可以运行2G内存。在1000亿个参数中最强大的多模式模型
2025-06-28