最新文章 - 至顶网

2025-01-17

刚刚上线的Vidu2.0，想让所有人都用得起AI视频。

AI视频领域真的卷麻了，比2023年的大模型还卷。自从可灵1.6发了之后，明显感觉所有家都坐不住了，基本都把自己的牛逼货加速推了出来。整体看了一下Vidu2.0的效果，在模型质量上，比较惊艳，能跻身T1梯队。

智能硬件

智能穿戴

玩具

2025-01-09

我花了5天时间，整理了一份AI硬件大全。

最近也一直在梳理关于AI硬件的一些内容，整体感觉AI硬件，有一点2023年年中大模型的味道，百模大战，万众创新，一切都欣欣向荣。什么方向都有点好玩的，当然走的最前的还是AI眼镜和AI玩具，还有手环手表、戒指、挂件等等。

GPU

游戏性能

光线追踪

2025-01-08

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

5090只要1999刀，核算成人民币不提黄牛或者不能进国内这种事，只要不到1w5就能拿下，香到爆炸好吧。5070只要$549，在老黄的口径上，性能直接与4090相当，关键是，价格只要4090的三分之一啊。

智谱

大模型

视频转换

2025-01-02

2024的最后一天，由智谱AI新上线的o1为这一年划上句点。

写一个python程序，主要功能是将普通视频转换为字符艺术视频。它首先将输入视频（jinitaimei.mp4）用ffmpeg按帧分解，然后把每一帧图像转换为由特定字符2、0、2、5和空格组成的字符画。转换过程中要将原图按比例缩放6倍，并将RGB颜色转换为灰度值并映射到对应字符。接着将这些字符画帧重新合成为视频，注意确保正确的帧顺序，生成一个字符艺术视频。

大模型

计算机视觉

大模型幻觉

2024-12-19

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

当你来到这个世界睁开眼睛的第一刻，没有学会语言的时候，靠的就是你的眼睛。我们先看到光影、颜色，才逐渐分辨出父母的面孔，屋子的空间，那时没有词汇、没有句子，只有模糊的光影与轮廓。

AI视频

AI绘图

视频镜头

2024-12-18

Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

当今最先进的AI视频模型Veo 2，还有AI绘图模型Imagen 3改进版。AI视频Veo 2的效果，真的让我有点想欢呼，甚至，有点像2月16号那个宿命的一夜，看Sora的感觉。

体操

AI

人体工程学

2024-12-12

体操运动，是所有AI视频最残酷的图灵测试。

我们得聊聊体操运动有多难。一个标准的体操动作，比如后空翻加转体720度，看起来只有短短两秒钟，但这两秒钟里，有大概三重对于AI来说非常地狱的难点。

AI

音频

音色克隆

2024-11-21

微信公众号悄悄上线AI音色克隆，微信的一小步，却是AI的一大步。

AI音频的东西，在收到一些身边亲近人的语音的时候会产生一些警惕，但是我们家里的老人呢？他们很多人对现在的AI并不是很了解，一旦AI音色克隆放开，很容易就是骗子拿着你4、5秒的音频去发给你的爷爷奶奶舅舅舅妈，骗取他们的信任。

AI

智能硬件

人机交互

2024-11-21

我终于把我新买的iPhone16 Pro，接入了国产AI，实现AI自由。

当初其实在看苹果发布会的时候，除了Siri2.0之外，还是有一个场景很打动我的，就是右下角的那个相机控制按钮，可以直接唤醒苹果的多模态AI，实现拍照问一切。

检索增强生成

文生图技术

大模型

2024-11-18

体验完百度世界2024上的iRAG，我觉得AI绘图也可以没有幻觉了。

本质上，他是不是大模型按照自己的知识库回答，然后先通过一些工程化手段，比如联网搜索，比如文档搜索等等，先把相关信息给找出来，让大模型根据这些信息来进行回答。

智谱清言

AI音效

开源

2024-11-11

智谱AI上线4K60帧"新清影"，还要直接开源，我觉得他们疯了。

现在智谱直接接力，直接开源了他们内部效果最好的AI视频模型。智谱的新清影，跟上一代比，已经进步巨大了。不管是审美、还是动作幅度、还是物理规律、还是稳定程度。

prompt

工具书

互联网

2024-11-06

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

然后就他写着写着，Prompt就越写越长。因为他发现，原来是可以把思考结构给封装进去的，他之前读了大量的这种工具书，脑子里全是各种各样的方法论，随便掏一个，就能咣咣咣咣大量的写。

人工智能

用户心智

大模型

2024-10-31

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

谷歌准备推出接管计算机的人工智能。上周三Claude、周五智谱AI、周末Google，然后微软。短短一周内，已经有四个公司爆出来要发布类似的产品了，其中三个已经悄悄发布产品：Anthropic的Claude，智谱的AutoGLM和微软的OmniParser。这些产品的能力有目共睹。

AI应用

动画制作

Act-One

表情迁移

2024-10-29

Runway的这个新功能，想要彻底颠覆动捕行业。

Runway发布了Act-One功能，允许用户上传视频以驱动角色模仿面部表情。传统动画和动捕相比，Act-One大幅降低了制作复杂度和成本，仅需上传视频和图片，短时间内即可生成视频。Act-One不仅稳定性高，还能适用于不同风格的角色，对动画行业具有革命性影响，为创作者提供了更多可能性。

3D

C4D

模型

2024-10-28

我用AI 3D，终于实现了我的手办自由。

坦率的讲，要是两年前，我肯定得自己去徒手建模了。但是如今，让我自己再去建模那肯定不可能，C4D和Blender我打开都不想打开，作为一个AI博主，要是再回去手工建模，那简直就是就回到原始人了。

人机交互

Claude 3.5 Sonnet

计算机操控

编程能力

2024-10-28

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Claude 3.5 Sonnet和Haiku模型升级，引入新功能“计算机操控”。升级版Sonnet在性能上领先，具备编程能力和解决问题的实际能力。Haiku模型性价比高，击败大参数模型。新功能“计算机控制”允许模型执行在线任务，如浏览、点击和输入，模拟人与计算机互动。尽管目前功能仅对开发者开放，Anthropic相信模型将更好地融入日常生活，提升人机交互体验。