米兰国际体育app下载:大模型日报 字节跳动对多模态又有了新创意HBM刻蚀需求爆发

来源:米兰国际体育app下载    发布时间:2026-01-10 08:48:59
米兰体育app官网下载手机版:

  上述模型是业内首批基于Qwen3-VL架构打造的开源多模态嵌入与重排序模型,大多数都用在将多模态和混合模态内容(包括但不限于文本、图像、音频和视频)统一映射至同一个高维语义空间,以此实现“看图找文”、“看文搜视频”等跨模态检索能。

  两款模型分别有2B和8B两种参数规格的版本,支持32K上下文窗口和任务指令定制。目前,上述模型已经在Hugging Face、ModelScope和GitHub全面开源。

  目前AI的多模态能力任旧存在一定局限性,对于复杂内容的识别,哪怕是Gemini 3 Pro的效果都谈不上有多理想。阿里千问团队延续了开源的技术路线,为跨模态识别领域提供了两款重要的基座模型。

  它们未必能立刻解决所有的识别难题,但仍然为行业提供了新的思路。在闭源模型的“黑箱”问题越来越严重的情况下,开源策略反而有几率会成为多模态领域实现突破的关键方法。

  OpenAI昨日推出了新产品OpenAI for Healthcare,这是一套专门为医疗行业打造、支持HIPAA(健康保险携带和责任法案)合规的AI产品组合。两款产品的相继发布,证明OpenAI慢慢的开始系统性地进入医疗领域的核心场景。

  一是ChatGPT for Healthcare:基于GPT-5.2模型设计,目标是优化临床、科研和运营工作流。它能够引用数百万篇同行评审文献、临床指南和公共卫生建议,并附带完整出处,同时也支持对接医院内部的政策数据库,确保其回答与机构标准保持一致;

  二是OpenAI API for Healthcare:面向开发者设计,支持构建病历摘要、随访调度、环境听诊等定制化工具,已有Abridge、Ambience等公司基于这一产品开始打造临床辅助应用。

  目前,波士顿儿童医院、Cedars-Sinai、斯坦福医学儿童健康、UCSF和HCA医疗集团等顶尖机构已开始部署。早期试点结果为,AI辅助有助于降低诊疗错误率。

  相比之前的ChatGPT Health,OpenAI的这款新产品进一步涉足了医疗行业更深层的领域,需求扩展也会带来更高的风险。

  但是,OpenAI仍然让医生作为决策者,明确强调“Clinicians stay in charge”,不代替医生做出诊断,也不轻易回答医学问题,其功能聚焦于辅助整合、文档生成、结合患者情况提供机构指南和最新文献等,最大限度避免了信任与合规相关问题。

  如果这一产品组合可以在一定程度上完成规模化应用,各大医院接入OpenAI生态后就会形成平台依赖,GPT-5也将成为智能医疗的底层基础设施。

  在智谱完成上市的同时,清华大学计算机系教授也正式公开宣布:智谱的新一代大模型GLM-5即将问世。

  在2025年,智谱模型的高速迭代领跑国内AI行业,从年初试探性地发布GLM-4.1,到7月GLM-4.5的正式发布,再到9月的GLM-4.6和12月的GLM-4.7,这家国内AI初创企业的模型能力已经能够和国际顶尖模型同台竞技。

  两周前发布的GLM-4.7在代码、Agent和多语言任务中拿下多项开源与国产模型SOTA,目前在Aritificial Analysis新版本的智能程度排行榜上位居全球第7,国内第1。

  唐杰表示,智谱的新模型GLM-5将继续以实现AGI为目标,在以下三方面实现技术突破:

  一是超越Transformer的全新架构:随着AI能力的增强和应用场景的扩大,Transformer架构存在的长上下文计算开销过大、记忆机制僵化等弊端正在被逐步扩大,智谱需要研发新的模型架构,并推进“芯片-算法协同设计”以提升能效;

  二是更加通用的强化学习范式:模型训练不再局限于代码等可验证环境,而是支持数十个小时的复杂任务执行;

  三是持续学习和自主进化:目前的模型在完成训练后,其智能程度就已经被确定,智谱将布局在线学习能力,使AI在推理阶段仍能提升智能。

  GLM-5提出的三大技术突破方向均属于AI学术领域内公认的硬核难题,短期内难以在产品上实现落实,模型在真实任务中的可靠性和成本效益更加值得关注。

  马斯克昨日公布消息称xAI将在下一个月对旗下编程推理模型Grok Code系列新产品进行一次重量级更新,新版本的模型将明显提升在复杂场景中的编程能力。

  对于较大的程序项目,过去的模型需要开发者进行分步引导和多轮调试以完成编码任务,未来有望通过单次提示直接完成。

  Vibe Coding(氛围编程)的应用场景越来越丰富,面对Claude Code在编程领域一家独大,Google、OpenAI和xAI都纷纷出手开始步入市场竞争。

  目前,在Artificial Analysis的编程排行榜上,Grok 4与其他三家相比稍显落后,本次更新预计能达到同一水平。未来,上述几款产品的能力差距将进一步被压缩,token价格将成为短期竞争的关键指标。

  一是低成本快速接入:适配30款以上的主流终端芯片,未来将与玄铁协同实现软硬件一体优化;

  二是超低交互时延:端到端语音响应只需1秒,视频交互只需1.5秒,支持全双工对话与实时视觉理解;

  三是开箱即用的生态:预置多种常用Agent,接入阿里云百炼生态,可通过A2A协议兼容第三方Agent,灵活扩展业务场景。

  新套件的发布是阿里注重AI应用层和Agent落地的又一重大举措。阿里将通义系列大模型的能力深度封装到硬件开发套件中,这些具备感知、规划和执行能力的智能体就可以真正融入用户的生活并处理问题。在下一代人机交互入口的竞争中,掌握终端交互的体验才能定义AI的形态。

  字节跳动对于多模态又有了新的创意。近日,字节在Github上上传了一个名为DreamStyle的统一、高效的视频风格化框架,支持文本描述、风格参考图、首帧引导三种输入方式生成特定风格的视频,并通过自研的数据管道和token级的LoRA微调技术,明显提升了长视频风格的一致性和画面质量,在真实的评测中超越了现有的方法。

  传统的视频风格化工具大多只能处理单一样式的输入(如文生视频和图生视频),导致视频时间一旦延长,就会导致效果不稳定、时序闪烁严重等问题。

  DreamStyle采用了自建的高质量训练数据集,结合SDXL(Stability AI团队开发的开源文生图框架)、Seedream 4.0和ControlNet(可控图像生成技术)以确保风格迁移的准确性和运动的连贯性。同时,该框架基于阿里开源的Wan14B-I2V模型架构,引入Token-specific LoRA技术,有效区分不同条件的信号以减少语义混乱。

  该框架聚焦于风格迁移这一明确任务而设计,对于短视频平台和广告公司来说具备一定商业经济价值。不过,部署门槛可能较高,是否支持轻量化或边缘设备有待观察。

  根据日经新闻消息,全球半导体设备巨头东京电子(Tokyo Electron)即将加大AI算力基建的相关投入,公司预计在2026财年将资本支出提升48%至2400亿日元,创下历史上最新的记录,同时,研发投入增长16%达到2900亿日元。

  这一激进投资的核心逻辑,是押注HBM(高带宽内存)扩产带来的先进蚀刻设备需求爆发。

  由于英伟达等高端AI厂商的芯片产品广泛采取多层堆叠HBM,各大DRAM制造商都在加速扩产。HBM三巨头中的三星和海力士都已经宣布投入数十亿美元新建HBM产线年投产。为提升AI芯片的性能,每增加一层HBM堆叠,就需要更加多的精密蚀刻设备用以构建芯片之间的精密互连结构,而这正是东京电子的核心业务之一。

  2025财年,东京电子的DRAM互连蚀刻系统销售额已经突破千亿,预计到2030年,累计销售额将达到5000亿日元。为迎合这一需求爆发的周期,东京电子于日本多地扩建研发、生产与物流中心。

  目前看来,AI的浪潮不会衰退,HBM的供给不足问题已对算力增长造成阻碍,因此这一投资伴随的风险几乎能忽略。AI硬件的竞争,已经从GPU扩展到HBM,并进一步向上游制造设备延伸。

  机器人奥运会战报:宇树机器人摘下首金,天工Ultra抢走首位“百米飞人”