奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

快速链接

科技: Google 宣布 Gemini 1.5

Wilson(42865)

发表于2024年02月16日 21时40分星期五
来自龙牙

Google 的大模型以及 AI 聊天机器人都采用 Gemini 这一名称。目前的大模型版本号是 1.0，它的付费版叫 Gemini Advanced，用户可以访问 1.0 Pro 和 1.0 Ultra——其中 1.0 Ultra 是类似 GPT-4 的规模最大的模型，而 1.0 Pro 是类似 GPT-3.5 的中等规模模型。现在 Google 宣布了下一代的 Gemini 1.5，表示其中等规模模型 1.5 Pro 在性能上接近了上一代最大模型 1.0 Ultra，上下文窗口能达到 100 万 tokens，这意味着 1.5 Pro 能一次性处理 1 小时视频、11 小时音频、逾 3 万行代码，或逾 70 万单词。Gemini 1.5 是基于 Transformer 和 MoE 架构，感兴趣的用户需要申请加入等待名单。

科技: OpenAI 宣布了视频生成模型 Sora

Wilson(42865)

发表于2024年02月16日 19时44分星期五
来自星尘

OpenAI 宣布了视频生成模型 Sora，并公布了一份相关的技术报告。Sora 能生成最长 1 分钟的高清视频，OpenAI 公布了数十个示例，展现了其惊人的文本生成视频能力。大模型使用 text tokens 统一代码、数学和自然语言的不同文本形式，而 Sora 使用了 visual patches 统一了所有类型的视觉数据。OpenAI 表示，Sora 能够根据文本指令生成长达 60 秒的视频，同时保持视觉质量并遵守用户提示。Sora 可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解，能够准确领会提示，生成令人信服的角色。Sora 还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。除了能仅从文本指令生成视频外，该模型还能够利用现有的静止图像从中生成视频，精确地将图像内容动画化，也可以利用现有视频进行扩展或填充缺失的帧。Sora 仍在开发中，存在明显“弱点”，特别是在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例，比如制作了一个视频，视频中有人咬了一口饼干，但之后饼干上没有咬痕。