米老鼠SD模型上线
“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
生成更快,AI Agent蓬勃发展@贝恩资本风险投资公司合伙人Slater Stich
AI需要良好的数据才能正常运行。正如人类需要良好的数据来做出决策,从采取什么营销策略到给孩子吃什么,AI也需要良好的数据,即使我们的算法在不断扩展、演变和改进。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。