1999 年 10 月 11 日,英伟达发布首款 GeForece 显卡 ——GeForce 256,它也是世界上第一款 GPU。虽然这一发布当时只有 PC 游戏玩家和科技爱好者关注,但却为今天生成式 AI 奠定了基础,铺就了未来游戏和计算领域的进步。为了庆祝全球首款 GPU 25 岁的生日,英伟达总部特意摆出了绿色爆米花,官方放出的周年庆视频,从今年的《黑悟空》往前回溯,一幕幕都是英伟达 GPU 所赋能的各种游戏,英伟达用这种独特的方式,纪念自家产品为游戏和科技领域带来的深远影响。

1993 年,黄仁勋与 Chris Malachowsky 和 Curtis Priem 两位资深微芯片设计师共同创立了英伟达公司。起初,他们希望设计出一种图形芯片,给公司起名叫 NVision,后因该名字已被占用,黄仁勋建议使用英伟达,取自拉丁文,意为 “嫉妒” 。公司创立初期,黄仁勋选择丹尼餐厅作为组织业务的场所,因为这里比家里安静,还有便宜的咖啡。他认为市场需要更好的图形芯片,彼时艺术家们开始用 “基元” 形状组装三维多边形,取代手工绘制像素,这一变革需要新芯片的支持。
1995 年,英伟达推出第一代 3D 图形加速处理器 nv1,它拥有二次曲面 3D 处理加速能力,并且包含音频加速器,还能处理 2D 和 3D 视频,甚至配备了世嘉土星兼容的游戏手柄端口,一些世嘉土星游戏也被移植到 PC 上 。但 nv1 的发展并不顺利,微软 DirectX 的发布与该 GPU 不兼容,导致许多游戏无法运行,再加上其图形和音频性能欠佳、硬件成本较高,使得它在市场上表现不佳。英伟达随后开始研发 nv2 作为 nv1 的继任者,然而,由于与世嘉产生一系列分歧,世嘉选择在其 Dreamcast 主机中使用 PowerVR 技术,nv2 项目被迫取消。
1997 年,英伟达推出 Riva 128(nv3),这是一款先进的 3D 图形处理器,采用硬件三角形设置引擎,拥有当时最快的 7M triangles/s 三角形生成率,比引领 3D 图形风潮的 Voodoo 3D 加速图形处理器还要快一倍。它使用了多边形纹理映射技术,能更快地渲染帧,但图像质量有所下降 。该 GPU 有 Riva 128 和 Riva 128 zx 两个主要版本,Riva 128 zx 使用了更高质量的芯片,可提高 RAMDAC 频率,两款模型均采用 100MHz 时钟速度的 SDRAM 内存,通过 128 位总线访问,带宽为 1.6GB/s。Riva 128 zx 拥有 8MB 显存,时钟速度为 250MHz,而 Riva 128 显存为 4MB,时钟速度为 206MHz 。这款产品比英伟达的第一款 GPU 成功得多,帮助公司获得了更广泛的知名度。
1998 年,英伟达推出 Riva TNT(nv4),该显卡在之前的模型基础上进行了改进,支持 32 位真彩色,配备 16MB SDR SDRAM,性能得到显著提升 。大约在这个时候,英伟达开始定期更新图形驱动程序,以确保最终用户获得良好的性能和兼容性,这一做法一直延续至今。Riva TNT 在当时比 3dfx 的 Voodoo 2 价格更实惠,虽然性能稍慢,但驱动程序支持是其成功的关键。1999 年,英伟达又推出了 Riva TNT2(nv5),带来了多项更新,包括 32 位 z – buffer / 模板支持、最高 32MB 的显存和 2048 x 2048 纹理支持 。更重要的是,这款显卡提高了时钟速度(高达 150 + MHz),性能比前一代提升了 17% 。它与 3dfx 的 Voodoo3 直接竞争,两款产品都非常受欢迎。
1999 年发布的 GeForce 256 意义重大,它是首款以 “GPU” 宣传的桌面卡,是首批支持当时新兴的 T&L 技术的显卡之一,减少了游戏中 CPU 的工作量,提供了视觉升级和更好的性能 。从固定功能 T&L 引擎,到可编程的顶点和像素着色器,再到统一着色器,现在又增加了网格着色器、光线追踪和 AI 计算等功能,所有现代显卡的设计很大程度上都归功于最初的 GeForce 。最初的 GeForce 256 使用 139 平方毫米芯片,封装了 1700 万个晶体管,采用台积电 220nm 工艺节点制造 。相比之下,当时的英特尔奔腾 III 450 CPU 使用 250nm 节点,将 950 万个晶体管封装到 128 平方毫米芯片中,GeForce 256 尺寸增加不到 10%,晶体管总数却增加了 80% 。其发行价格为 199 美元,考虑通货膨胀,相当于今天的 373 美元 。而如今高端 CPU 价格仍远低于 500 美元,但 RTX 4090 起价已达约 1800 美元,英伟达 RTX 4090 在 608 平方毫米的面积中封装了 AD102 芯片,采用台积电 4N 节点,内含 760 亿个晶体管 。GeForce 256 标志着 GPU 和显卡开始崛起,成为游戏 PC 最重要的组成部分,具备完整的 DirectX 7 和 OpenGL 支持。随着 DirectX 8 添加可编程着色器,GPU 真正开始演变为一种不同的计算方式,如今的 GPU 提供高达 petaflops 的计算性能,不仅变革了游戏行业,也为 AI 的迅猛发展提供了动力。
2000 年,英伟达推出 GeForce 2MX(nv15),虽不是开创 GeForce 历史的首款产品,但 2MX 显示芯片在显示技术领域地位极高,它是世界上第一个可编程的 GPU,通过运行 shader 程序,GPU 可以产生无限多种特效 。这款显示芯片寿命很长,直到 6 年后,一些低端电脑上仍在使用。2001 年,英伟达在 GeForce 3Ti500(nv20)中加入双顶点着色引擎基数,采用完全可伸缩的架构。2002 年,英伟达推出的 GeForce 5900U(nv30)是世界上第一个支持复杂长 shader 程序的 GPU,shader 支持分支和循环,可以实现电影级的渲染特效,这一代产品中,ForceWare 驱动程序诞生,GeForce 5950U 则是 GeForce 5900U 的加强版 。
2005 年,GeForce 7800GTX(G70)几乎风靡于高端游戏主机市场,在当时条件较好的网吧主机中也广泛采用 。它采用 TSMX 110nm 工艺制程,显存位宽 256bit,像素管线数量 24 个,顶点着色器数量 8 个,其性能和功耗比代表着当时高端显卡的最高水平。2006 年,英伟达推出 GeForce 8800U(G80),这是世界上第一个统一架构的 GPU,第一个支持真正 GPU 计算的 GPU,第一个采用标量计算单元的 GPU,Nvidia GPU 计算架构 CUDA 就此诞生 。2008 年,英伟达的 GeForce GTX280(GT200)采用第二代统一架构,是第一个支持双精度浮点计算的 GPU。2010 年,英伟达 GeForce GTX 480(Fermi)活跃于中高端游戏主机,它完全为 DX11 Tessellation 技术而优化几何引擎,具备完全的双精度浮点计算能力,极大改善了 GPU 计算架构,其运算能力超过计算机,首次成为世界第一(天河 1A) 。2012 年,英伟达 GeForce GTX690(Kepler)拥有极大增强的性能功耗比,采用新一代抗锯齿 TXAA 技术和 NVENC 视频解码技术,第一次将主流桌面级别的 GPU 架构和性能延伸到移动处理器中 。2015 年,英伟达推出旗舰产品 Titan X,采用 GM200 架构,28nm 工艺制程,晶体管数量达到 80 亿、核心面积 610 平方毫米,核心频率 1000MHz,着色器数量多达 3072 个,成为当之无愧的单卡机皇 。
在 AI 领域发展历程中,英伟达 GPU 同样扮演着极为关键的角色。并行计算改变了游戏 CG,也引起了研究人员的注意,他们意识到 GPU 在 AI 方向的巨大计算潜力,能在游戏世界之外实现突破。深度学习依赖数十亿神经元和万亿连接的软件模型,需要巨大算力,传统 CPU 设计用于顺序任务,无法高效处理这样的工作负载,而 GPU 凭借大规模并行架构,完美胜任这一任务 。到 2011 年,AI 研究人员发现英伟达的 GPU 能处理深度学习庞大的计算需求,谷歌、斯坦福大学和纽约大学的研究人员开始使用英伟达 GPU 加速 AI 开发,达到了以前只有超算才能实现的性能 。2012 年,多伦多大学的 Alex Krizhevsky 利用英伟达 GPU 赢得 ImageNet 图像识别竞赛,他所用的神经网络 AlexNet 在一百万张图像上进行训练,击败了由视觉专家人工编写的软件,这标志着科技领域的重大转变,计算机通过大量数据自主学习和适应的情景在 GPU 的强大性能推动下成为现实 。到 2015 年,AI 在感知能力上达到超人水平,谷歌、微软等科技巨头训练的模型,在图像识别、语音理解等任务中超越人类表现,而这一切都由在 GPU 上运行的深度神经网络驱动 。2016 年,老黄向 OpenAI 捐赠了第一台 NVIDIA DGX – 1 AI 超级计算机,亲自送货、亲手安装,DGX 配备了 8 个当时最先进的 GPU,OpenAI 随后利用这些 GPU 训练了 ChatGPT,2022 年发布的 ChatGPT 在几个月内用户量破亿,展示了以 GPU 为代表的算力在生成式 AI 变革中的巨大力量 。
如今,来到 2025 年,英伟达显卡仍在不断推陈出新。7 月,英伟达宣布 7 月 11 日 – 7 月 13 日 “GeForce 神秘登陆 Bilibili World 2025”,并开放 RTX5080/5070 公版显卡售卖,自 7 月 5 日起,用户可登录 B 站 App 在线预约 。同时,还将举行多场游戏试玩会,包括暂未发售的《明末:渊虚之羽》(7 月 13 日),超过 30 名 UP 主也将陆续空降展台与玩家互动 。在产品研发方面,据爆料者 Kopite7kimi 曝光,英伟达正在研发 GeForce RTX 5070 SUPER,预计在 2026 年 CES 期间推出,它将采用 GB205 – 400 – A1 “Blackwell” GPU 和 PG147 – SKU65 PCB,核心数量从 RTX 5070 的 6144 个增加到 6400 个,流处理器数量从 48 个 SM 提升到 50 个 SM,显存方面将配备 18GB 的 GDDR7 显存,显存频率 28Gbps,显存带宽接口 192 位,相较于 RTX 5070,显存容量提升 50%,功耗也有所增加,TBP 为 275W,提升了 10% 。还有消息透露,NVIDIA 正在开发新一代显卡 “RTX 5060 Super”,将配备 12GB GDDR7 显存,性能预计介于 RTX 5060 与 RTX 5060 Ti 之间,该显卡将搭载 4096 个 CUDA 核心,针对 1080p 和部分 1440p 游戏表现进行优化,主打高性能与更实惠的价格定位,但 RTX 50 系列的 SUPER 版本预计 2026 年初才会正式推出 。另外,在移动端,2025 年 6 月 24 日,英伟达发布了 GeForce RTX 5050 台式机 GPU 和笔记本电脑 GPU,移动版的 RTX5050 在 Geekbench 跑分平台上得分为 88727 分,相比上一代 RTX4050 的 79601 分,性能提升约 11%,其核心数量依旧为 2560 个,与 RTX4050 保持一致,搭载 8gb 显存,频率 2.5ghz,其性能提升更可能得益于英伟达在架构设计以及 AI 辅助技术(例如 DLSS 和多帧生成)方面的优化成果,中国国内售价 2099 元起,海外售价 249 美元起 。
回顾英伟达显卡 25 年的发展历程,从最初艰难摸索进入市场,在游戏领域逐渐崭露头角,到成为推动 AI 发展的核心力量,再到如今在游戏和 AI 等多领域持续发力、不断创新,英伟达显卡的进化史不仅是一部技术革新史,更是推动整个科技行业变革与发展的重要驱动力,未来,我们有理由期待英伟达在显卡技术上继续突破,为我们带来更多的惊喜与可能。