2024-09-26
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
作者 | 程茜 ZeR0
编辑 | 心缘
智东西9月26日报道,北京时间今日凌晨1点15分,年度“MR圈春晚”Meta Connect 2024大会正式拉开帷幕。
Meta CEO马克·扎克伯格穿着黑色T恤登台,紧锣密鼓发布Quest 3S头显、Llama 3.2大模型、雷朋智能眼镜、全息AR眼镜等新品。
扎克伯格亮出的首个硬件新品是Quest 3S,惊爆价299.99美元(折合约2110人民币)。
虽说性能比Meta首款消费级MR一体机Quest 3略逊一筹,但起售价直降200美元,约等于苹果Vision Pro的1/11,妥妥的性价比机皇!!!
大模型也重磅上新!Meta多模态模型Llama 3.2发布,包括90B和11B参数的视觉大语言模型,以及1B和3B参数的轻量级纯文本模型。
借助Llama 3.2,Meta AI推出全新多模态功能,能支持语音交互了,有多种音色选项(包括一些名人的声音)。扎克伯格现场演示与Meta AI语音聊天,非常丝滑。
还有被Meta称作有史以来最先进的AR眼镜——全息AR眼镜“Orion”。
英伟达创始人兼CEO黄仁勋已经尝鲜。
01.
Quest 3S:亲民廉价版,售价300美刀,
性能比Quest 3几乎无异
首先,平价版的Quest设备来了!
Meta直接将Quest 3S价格砍掉200美元(折合约1406人民币),还几乎做到了性能与Quest 3相差无几。
Meta Quest 3S 128GB版售价为299.99美元(折合约2110人民币),256GB版售价为399.99美元(折合约2813人民币)。而512GB的Quest 3为499.99美元(折合约3516人民币)。
两款头显采用的处理器一致,均为高通骁龙XR2 Gen 2芯片。价格大幅下降的关键就是Quest 3S将Pancake镜头更换成了Infinite透镜。
从现场演示来看,拥有4K显示屏的Quest 3S显示十分清晰,还支持杜比全景声(Dolby Atmos)环绕。
Meta重建了Horizon OS以实现空间计算,可以更好支持用户使用YouTube、Facebook和Instagram等基本2D应用。
Meta添加了空间音频,并改进了Passthrough(透视)的对比度和颜色,都使得其画面演示能更加逼真和身临其境。
扎克伯格宣布Meta正与微软合作,用Windows 11 PC来实现无缝虚拟桌面体验。
Meta已提供多屏幕支持,并且能够直接与显示器上正在发生的事情进行交互。例如,用户可以直接拖拽笔记本中的界面到Quest设备中。
为了创建更加逼真的元宇宙环境,Meta推出了Hyperscape,用户只需用手机扫描自己所在的房间,然后随时戴上头显都能“重现”这一房间。
这一头显设备能让你坐在前排座位观看音乐会、坐在家庭影院观看高清大片、进行健身等。
此外,Quest 3S还兼容Meta的数千款应用和完整游戏库,以及即将推出的Quest 3和3S独家游戏,如《蝙蝠侠:阿卡姆暗影》。
对于那些刚接触XR或者一直在等待Quest和Quest 2设备降价的用户而言,Quest 3S可能是更好的选择。
02.
Llama 3.2:视觉模型赶超GPT-4o mini,1B端侧模型媲美Gemma
开源AI方面,Meta发布了全新多模态大模型Llama 3.2。
Llama 3.2有90B和11B两种参数规格的视觉大语言模型,还有能在设备端本地运行的1B和3B轻量级纯文本模型,包括预训练和指令调整版。
下载地址:https://www.llama.com/
1B和3B模型支持128K tokens上下文,适配高通和联发科硬件,并针对Arm处理器做了优化。
3B模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表现媲美Gemma。
90B和11B视觉模型是其相应文本模型的直接替代品,同时在图像理解任务上的表现优于封闭模型,如Claude 3 Haiku、GPT-4o mini。
比如问企业去年哪个月的销售额最高,Llama 3.2可根据可用图表进行推理并快速提供答案。
它还能使用地图进行推理并帮助回答问题,例如地图上标记的特定路径的距离。
视觉模型也能通过从图像中提取细节、理解场景,然后制作一两句话作为图像字幕来帮助讲述故事。
与其他开放多模态模型不同,预训练和对齐模型都可以使用torchtune针对自定义应用程序进行微调,并使用torchchat在本地部署。
11B和90B参数的多模态模型需要支持图像推理的全新模型架构。
Meta的训练流程由多个阶段组成,从预训练的Llama 3.1文本模型开始,首先添加图像适配器和编码器,然后通过大规模噪声对数据进行预训练,接下来在中等规模的高质量领域内和知识增强的数据上进行训练。
在后期训练中,Meta使用与文本模型类似的方法,在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。最终得到这一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。
对于1B和3B参数的轻量级模型,Meta使用了利用强大的教师模型来创建性能更佳的小型模型的方法,使得其成为首批能够高效适应设备的高性能轻量级Llama模型。
Meta通过缩小Llama现有模型的大小,同时尽可能多地恢复知识和性能,其采用了从Llama 3.1 8B中一次性使用结构化修剪的方法。
在后期训练中,研究人员使用与Llama 3.1类似的方法,通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。
Meta正在分享首个官方Llama Stack发行版,将极大简化开发人员在单节点、本地、云和设备端等不同环境中使用Llama模型的方式,从而实现检索增强生成(RAG)和集成安全性的工具支持应用程序的交钥匙部署。
03.
Meta AI:多种名人声音任意选,
P图、实时翻译更方便
借助Llama 3.2,Meta AI有声音了。
现在,使用语音与Meta AI对话,可以让它回答你的问题或者讲笑话逗你开心。Meta在语音中还添加了很多熟悉的AI声音。如英国女演员Judi Dench等的声音。