solidot新版网站常见问题,请点击这里查看。
人工智能
Wilson(42865)
发表于2024年04月29日 18时40分 星期一
来自平行恋人
清华大学联合生数科技发布了 Sora 的文本视频生成模型 Vidu。该模型采用 Diffusion 与 Transformer 融合的架构 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示,与 Sora一致,Vidu 能够根据提供的文本描述直接生成长达 16 秒的高质量视频。除了在时长方面的突破外,Vidu 在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军表示,Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与Transformer 融合的架构,完全由团队自主研发。目前使用 Vidu 需要申请。

人工智能
Wilson(42865)
发表于2024年04月29日 00时10分 星期一
来自智者之惧
微软 Windows 24H2 将包含名为 AI Explorer 的新工具。walkingdog 写道: AI Explorer 的更多功能细节已经流出:AI Explorer 依赖 Windows 设备的 NPU 在后台进行运行,AI Explorer 会理解屏幕上所有应用和画面产生的行为并将它们记录为“记忆”,这些记忆可通过后续的搜索来进行调用,AI Explorer 的大多数计算工作都是在本地进行。AI Explorer 通过记忆提供多种交互方式:AI 搜索和基于上下文的应用操作。通过 AI Explorer 搜索框搜索设备上的记忆,搜索功能完全支持自然语言。比如:找回几天前在网页上看到的有关某些动物的内容,只需要在搜索框中输入“给我展示几天前我在网页上看到的关于某个动物的页面内容”即可。AI Explorer 可以让不同应用之间的内容进行交互协同,比如:在屏幕上打开两份文档,让 AI Explorer 进行对比分析并草拟邮件给出分析结果;在浏览图片时 AI Explorer 会提示一些图片编辑操作(移除背景)等。基于上下文的应用操作不需要开发者专门适配,完全由 AI Explorer 通过理解和学习屏幕内容而给出操作建议。