最新文章
刚刚上线的Vidu2.0,想让所有人都用得起AI视频。

刚刚上线的Vidu2.0,想让所有人都用得起AI视频。

AI视频领域真的卷麻了,比2023年的大模型还卷。自从可灵1.6发了之后,明显感觉所有家都坐不住了,基本都把自己的牛逼货加速推了出来。整体看了一下Vidu2.0的效果,在模型质量上,比较惊艳,能跻身T1梯队。

我花了5天时间,整理了一份AI硬件大全。

我花了5天时间,整理了一份AI硬件大全。

最近也一直在梳理关于AI硬件的一些内容,整体感觉AI硬件,有一点2023年年中大模型的味道,百模大战,万众创新,一切都欣欣向荣。什么方向都有点好玩的,当然走的最前的还是AI眼镜和AI玩具,还有手环手表、戒指、挂件等等。

RTX5090震撼发布,一文带你看懂英伟达CES2025发布会。

RTX5090震撼发布,一文带你看懂英伟达CES2025发布会。

5090只要1999刀,核算成人民币不提黄牛或者不能进国内这种事,只要不到1w5就能拿下,香到爆炸好吧。5070只要$549,在老黄的口径上,性能直接与4090相当,关键是,价格只要4090的三分之一啊。

2024的最后一天,由智谱AI新上线的o1为这一年划上句点。

2024的最后一天,由智谱AI新上线的o1为这一年划上句点。

写一个python程序,主要功能是将普通视频转换为字符艺术视频。它首先将输入视频(jinitaimei.mp4)用ffmpeg按帧分解,然后把每一帧图像转换为由特定字符2、0、2、5和空格组成的字符画。转换过程中要将原图按比例缩放6倍,并将RGB颜色转换为灰度值并映射到对应字符。接着将这些字符画帧重新合成为视频,注意确保正确的帧顺序,生成一个字符艺术视频。

一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。

一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。

当你来到这个世界睁开眼睛的第一刻,没有学会语言的时候,靠的就是你的眼睛。 我们先看到光影、颜色,才逐渐分辨出父母的面孔,屋子的空间,那时没有词汇、没有句子,只有模糊的光影与轮廓。

Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

当今最先进的AI视频模型Veo 2,还有AI绘图模型Imagen 3改进版。AI视频Veo 2的效果,真的让我有点想欢呼,甚至,有点像2月16号那个宿命的一夜,看Sora的感觉。

体操运动,是所有AI视频最残酷的图灵测试。

体操运动,是所有AI视频最残酷的图灵测试。

我们得聊聊体操运动有多难。一个标准的体操动作,比如后空翻加转体720度,看起来只有短短两秒钟,但这两秒钟里,有大概三重对于AI来说非常地狱的难点。

微信公众号悄悄上线AI音色克隆,微信的一小步,却是AI的一大步。

微信公众号悄悄上线AI音色克隆,微信的一小步,却是AI的一大步。

AI音频的东西,在收到一些身边亲近人的语音的时候会产生一些警惕,但是我们家里的老人呢?他们很多人对现在的AI并不是很了解,一旦AI音色克隆放开,很容易就是骗子拿着你4、5秒的音频去发给你的爷爷奶奶舅舅舅妈,骗取他们的信任。

我终于把我新买的iPhone16 Pro,接入了国产AI,实现AI自由。

我终于把我新买的iPhone16 Pro,接入了国产AI,实现AI自由。

当初其实在看苹果发布会的时候,除了Siri2.0之外,还是有一个场景很打动我的,就是右下角的那个相机控制按钮,可以直接唤醒苹果的多模态AI,实现拍照问一切。

体验完百度世界2024上的iRAG,我觉得AI绘图也可以没有幻觉了。

体验完百度世界2024上的iRAG,我觉得AI绘图也可以没有幻觉了。

本质上,他是不是大模型按照自己的知识库回答,然后先通过一些工程化手段,比如联网搜索,比如文档搜索等等,先把相关信息给找出来,让大模型根据这些信息来进行回答。

智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

现在智谱直接接力,直接开源了他们内部效果最好的AI视频模型。智谱的新清影,跟上一代比,已经进步巨大了。不管是审美、还是动作幅度、还是物理规律、还是稳定程度。

专访"Prompt之神"李继刚 - 我想用20年时间,给世界留一句话。

专访"Prompt之神"李继刚 - 我想用20年时间,给世界留一句话。

然后就他写着写着,Prompt就越写越长。因为他发现,原来是可以把思考结构给封装进去的,他之前读了大量的这种工具书,脑子里全是各种各样的方法论,随便掏一个,就能咣咣咣咣大量的写。

智谱AI的AutoGLM后,Google和微软也下场来做“贾维斯”了。

智谱AI的AutoGLM后,Google和微软也下场来做“贾维斯”了。

谷歌准备推出接管计算机的人工智能。上周三Claude、周五智谱AI、周末Google,然后微软。短短一周内,已经有四个公司爆出来要发布类似的产品了,其中三个已经悄悄发布产品:Anthropic的Claude,智谱的AutoGLM和微软的OmniParser。这些产品的能力有目共睹。

Runway的这个新功能,想要彻底颠覆动捕行业。

Runway的这个新功能,想要彻底颠覆动捕行业。

Runway发布了Act-One功能,允许用户上传视频以驱动角色模仿面部表情。传统动画和动捕相比,Act-One大幅降低了制作复杂度和成本,仅需上传视频和图片,短时间内即可生成视频。Act-One不仅稳定性高,还能适用于不同风格的角色,对动画行业具有革命性影响,为创作者提供了更多可能性。

我用AI 3D,终于实现了我的手办自由。
2024-10-28

我用AI 3D,终于实现了我的手办自由。

坦率的讲,要是两年前,我肯定得自己去徒手建模了。但是如今,让我自己再去建模那肯定不可能,C4D和Blender我打开都不想打开,作为一个AI博主,要是再回去手工建模,那简直就是就回到原始人了。

加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。

加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。

Claude 3.5 Sonnet和Haiku模型升级,引入新功能“计算机操控”。升级版Sonnet在性能上领先,具备编程能力和解决问题的实际能力。Haiku模型性价比高,击败大参数模型。新功能“计算机控制”允许模型执行在线任务,如浏览、点击和输入,模拟人与计算机互动。尽管目前功能仅对开发者开放,Anthropic相信模型将更好地融入日常生活,提升人机交互体验。

智谱AI悄悄发布AutoGLM,这一次,贾维斯真的要成现实了。

智谱AI悄悄发布AutoGLM,这一次,贾维斯真的要成现实了。

我直接放一个视频,你就可以,直观的体会一下他的强悍。比如,我对AutoGLM说:“我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。”

一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的。

一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的。

保持提示词简单直接:模型擅长理解和相应简单、清晰的指令,而不需要大量的指导。 当时我对这一条的理解,觉得是为了让o1模型更好的理解我的要求,同时可以加快模型的处理速度,因为模型不需要花费额外的时间去解析复杂的语句。

这两个AI,让你的国庆出行没有废片。

这两个AI,让你的国庆出行没有废片。

文章介绍了即梦AI的智能画布工具,它能够帮助用户在国庆出游时,通过AI消除和AI扩图功能,轻松修复照片中的路人和不完美的构图。即梦AI提供简单易用的网页版操作,而美图秀秀则提供了移动端的相似功能。作者推荐这些工具,希望能为读者的国庆旅游照片处理提供便利。

字节全新发布豆包AI视频模型 - 再见了Sora,你的时代过去了。

字节全新发布豆包AI视频模型 - 再见了Sora,你的时代过去了。

字节正式发布了他们全新的两款AI视频模型:豆包视频生成-PixelDance模型和Seaweed模型。