当你来到这个世界睁开眼睛的第一刻,没有学会语言的时候,靠的就是你的眼睛。 我们先看到光影、颜色,才逐渐分辨出父母的面孔,屋子的空间,那时没有词汇、没有句子,只有模糊的光影与轮廓。
当今最先进的AI视频模型Veo 2,还有AI绘图模型Imagen 3改进版。AI视频Veo 2的效果,真的让我有点想欢呼,甚至,有点像2月16号那个宿命的一夜,看Sora的感觉。
我们得聊聊体操运动有多难。一个标准的体操动作,比如后空翻加转体720度,看起来只有短短两秒钟,但这两秒钟里,有大概三重对于AI来说非常地狱的难点。
AI音频的东西,在收到一些身边亲近人的语音的时候会产生一些警惕,但是我们家里的老人呢?他们很多人对现在的AI并不是很了解,一旦AI音色克隆放开,很容易就是骗子拿着你4、5秒的音频去发给你的爷爷奶奶舅舅舅妈,骗取他们的信任。
当初其实在看苹果发布会的时候,除了Siri2.0之外,还是有一个场景很打动我的,就是右下角的那个相机控制按钮,可以直接唤醒苹果的多模态AI,实现拍照问一切。
本质上,他是不是大模型按照自己的知识库回答,然后先通过一些工程化手段,比如联网搜索,比如文档搜索等等,先把相关信息给找出来,让大模型根据这些信息来进行回答。
现在智谱直接接力,直接开源了他们内部效果最好的AI视频模型。智谱的新清影,跟上一代比,已经进步巨大了。不管是审美、还是动作幅度、还是物理规律、还是稳定程度。
然后就他写着写着,Prompt就越写越长。因为他发现,原来是可以把思考结构给封装进去的,他之前读了大量的这种工具书,脑子里全是各种各样的方法论,随便掏一个,就能咣咣咣咣大量的写。
谷歌准备推出接管计算机的人工智能。上周三Claude、周五智谱AI、周末Google,然后微软。短短一周内,已经有四个公司爆出来要发布类似的产品了,其中三个已经悄悄发布产品:Anthropic的Claude,智谱的AutoGLM和微软的OmniParser。这些产品的能力有目共睹。
Runway发布了Act-One功能,允许用户上传视频以驱动角色模仿面部表情。传统动画和动捕相比,Act-One大幅降低了制作复杂度和成本,仅需上传视频和图片,短时间内即可生成视频。Act-One不仅稳定性高,还能适用于不同风格的角色,对动画行业具有革命性影响,为创作者提供了更多可能性。
坦率的讲,要是两年前,我肯定得自己去徒手建模了。但是如今,让我自己再去建模那肯定不可能,C4D和Blender我打开都不想打开,作为一个AI博主,要是再回去手工建模,那简直就是就回到原始人了。
Claude 3.5 Sonnet和Haiku模型升级,引入新功能“计算机操控”。升级版Sonnet在性能上领先,具备编程能力和解决问题的实际能力。Haiku模型性价比高,击败大参数模型。新功能“计算机控制”允许模型执行在线任务,如浏览、点击和输入,模拟人与计算机互动。尽管目前功能仅对开发者开放,Anthropic相信模型将更好地融入日常生活,提升人机交互体验。
我直接放一个视频,你就可以,直观的体会一下他的强悍。比如,我对AutoGLM说:“我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。”
保持提示词简单直接:模型擅长理解和相应简单、清晰的指令,而不需要大量的指导。 当时我对这一条的理解,觉得是为了让o1模型更好的理解我的要求,同时可以加快模型的处理速度,因为模型不需要花费额外的时间去解析复杂的语句。
文章介绍了即梦AI的智能画布工具,它能够帮助用户在国庆出游时,通过AI消除和AI扩图功能,轻松修复照片中的路人和不完美的构图。即梦AI提供简单易用的网页版操作,而美图秀秀则提供了移动端的相似功能。作者推荐这些工具,希望能为读者的国庆旅游照片处理提供便利。
字节正式发布了他们全新的两款AI视频模型:豆包视频生成-PixelDance模型和Seaweed模型。
毕竟好莱坞都抵制AI这么久了,又是罢工又是抗议的,你大厂怎么直接下场表示支持AI了?不过那句话怎么说来着,孤掌难鸣,毕竟这一个单独的Case,还没有办法让那么多的反对者倒戈。但是今天,作为好莱坞电影人的精神图腾,詹姆斯·卡梅隆居然也跟AI走到了一起,甚至还不是发言表达,而是直接身体力行亲身参与这股革命浪潮中。
OpenAI发布了新的AI模型OpenAI o1,它在复杂推理任务上取得显著进展,重置了命名序列。o1模型通过Self-play RL学习,具备了慢思考的特质,能够进行深度思考和推理。在AIME 2024数学竞赛和科学问题GPQA Diamond上,o1的表现超过了人类专家。o1模型已向ChatGPT Plus和Team用户开放,提供o1预览版和o1 mini两种版本,API价格不等。
一起用身边的熟人作乐,甚至是威胁,还以AI视频+公开受害女性身份、家庭住址为理由,向受害人索要钱财。 这一次,最大的受害者群体,是学生。
本周AI大事件包括Google发布Gemini 1.5 Pro和Gemma 2 2B模型,FLUX开源图像模型,Meta发布SAM 2图像分割模型。Gemini 1.5 Pro在LLM竞技场排名第一,支持音频和视频,Gemma 2 2B可在设备端运行。FLUX系列模型包括FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell],