solidot新版网站常见问题,请点击这里查看。
人工智能
Edwards(42866)
发表于2025年08月14日 21时02分 星期四
来自迷失的世界
金融时报报道,杭州深度探索公司 DeepSeek 在使用华为芯片训练新模型 R2 失败后,已推迟该模型的发布。DeepSeek 在今年 1 月释出了引发广泛关注的 R1 模型,之后它开始了 R2 模型的训练,在有关部门的鼓励下它使用了华为昇腾(Ascend)处理器而不是更成熟也更先进的英伟达 AI 芯片。但在使用昇腾芯片训练 R2 模型的过程中 DeepSeek 持续遭遇技术问题,因此转而使用英伟达芯片训练,使用华为芯片推理。

人工智能
Edwards(42866)
发表于2025年08月14日 17时20分 星期四
来自未来学大会
全世界最先进的 AI 模型都来自美国公司,都是私有模型,而中国在开源模型或开放权重模型领域处于领先地位,这令硅谷和华盛顿感到担忧,担心中国的模型可能会成为 AI 行业标准。行业标准并不一定是技术最先进的,易获得性和灵活性也非常重要,比如移动领域的 Android。对很多企业而言,使用开源模型可以对其进行更自由的调控,确保敏感信息不外泄。新加坡华侨银行使用开源模型开发了数十种内部工具,它使用的开源模型包括了 Google 的 Gemma,阿里巴巴的 Qwen 以及杭州深度求索的 DeepSeek。OpenAI 最新发布的开源模型 gpt-oss 在多项测试中不如阿里巴巴的 Qwen3,但 Qwen3 的参数规模几乎是 gpt-oss 的两倍,意味着 Qwen 可能需要消耗更多的算力完成相同的任务。OpenAI表示,gpt-oss 在推理任务上的表现优于同等参数规模的竞争对手,以低成本实现了强大的性能。亚马逊 AWS 表示,gpt-oss 比在其基础设施上运行的 DeepSeek R1 性价比更高。