- 深度学习与大模型基础
- 段小手
- 2081字
- 2025-03-27 18:19:09
1.2 模型复杂度的提升
早在20世纪80年代, 计算资源比较紧缺, 所以只能训练相对较小的模型。我们可以把这些模型看作“小聪明”, 它们能够完成一些简单的任务, 但要做出更复杂的决策还需要借助其他神经元的力量。
就像生活中的团队一样, 单独的神经元或小组合作并不能创造出巨大的成果。只有当大量神经元齐心协力时, 才能发挥出最强大的能量。我们现在拥有更多的计算资源, 可以运行更大的模型, 这使得神经网络变得非常成功。
在前几年, 神经网络的神经元数目很少。但是自从隐藏单元引入以来, 神经网络的规模就迅速扩大, 平均每2. 4年就会翻倍。
现在的神经网络, 就像我们生活中的餐厅, 不停地调整餐桌大小, 增加客座位, 以应对越来越多的顾客。而这种增长还是由更大内存、更快速的计算机和更大的数据集所推动的。比如, 你上次去餐厅吃饭时, 只有几桌客人, 服务员可以轻松应对, 但如果现在餐厅爆满了, 那么你点菜等待的时间就会明显变长——这就需要让餐厅老板不停地扩大规模才行。
同理, 一个更大的神经网络, 也能够在更复杂的任务中实现更高的精度。而且这种趋势似乎会持续数十年, 除非未来有什么新技术能够让我们快速扩张。不然的话, 要等到很多年后, 人工神经网络才能具备跟人脑相同数量级的神经元。而且生物神经元的功能比人工神经元更加复杂, 所以要让神经网络能够达到人类的智能水平, 光是神经元数量达到和人脑相同, 还是远远不够的。
目前最先进的大语言模型, 例如OpenAI的GPT模型, 参数数量高达数十亿。相比之下, 据科学家估计, 人类大脑中的神经元数量约为1000亿。因此, 现在的大语言模型参数数量虽然庞大, 但仍然远远比不上人类大脑的神经元数量。如果要通过类比来形容的话, 也许可以说现在的大语言模型参数数量相当于一只小老鼠的神经元数量, 就像图1-5所示的这样。

图1-5 就算是目前最先进的大语言模型, 其神经元的数量也只相当于一只小老鼠的
随着更快的CPU、通用GPU的出现, 以及更好的分布式计算软件基础设施等科技的涌现, 深度学习的模型规模也变得越来越大了! 就像我们家里的电视机一样, 从最开始的小盒子屏幕, 到现在的巨幕高清电视, 尺寸和质量都有了巨大的飞跃。我们可以想象一下, 未来, 深度学习的模型规模会变得比现在还要庞大, 而且这种趋势还会持续下去。
最早的深度神经网络只能识别精确裁剪且非常小的图像中的单个对象。这就好比你要找一只袜子, 但是只有一个小角落可以瞄到, 还得把袜子从其他衣服里面单挑出来。不过现在的深度神经网络可就厉害多了, 可以轻松地从一堆衣服中找到你要的袜子, 就像你可以很轻松地在床上找到自己的被子, 而且可以处理大尺寸高清照片, 并且不需要精确裁剪。以前的深度神经网络只能识别两种对象, 比如只能分辨两种水果, 苹果和香蕉。但是现在的深度神经网络可以分辨至少1000种不同的物品, 就像你可以在市场上分辨出无数种水果。如果说识别对象是一项比赛, 那么每年的ImageNet大型视觉识别挑战就是冠军争夺战! 卷积神经网络曾经为了拿到这个冠军, 使尽浑身解数, 将前五名的错误率从26. 1%降到了15. 3%, 就像运动员们在冠军赛场上奋力拼搏, 十分激动人心! 现在的深度学习更是厉害, 前五名的错误率已经降到了3. 6%。
深度学习也对语音识别产生了巨大影响。在20世纪90年代, 语音识别看起来潜力无限, 但始终无法突破自我。尽管多方努力, 它也只能停滞不前, 就像一只被困在笼子里的小猫。然而, 在深度学习的引领下, 小猫终于摆脱了束缚, 成了一只自由自在、优美动人的大猫。在诸多研究者的努力下, 语音识别错误率陡然下降, 好像突然间所有的声音都清晰明了起来, 有些错误率甚至降低了一半。
现在, 我们可以轻松地用语音指挥手机, 让它帮我们完成各种任务, 这些强大的功能背后, 深度学习功不可没!
随着深度神经网络的规模和精度不断地提高, 现在它甚至可以学会描述图像的整个字符序列, 就像小学生能够背诵全唐诗一样厉害。之前人们认为必须标注单个元素才行, 但现在深度神经网络已经可以轻松搞定序列与序列之间的关系。比如, 它能够让计算机不再只看到输入之间的关系, 而是真正理解它们之间的联系。这种技术似乎引领着另一个应用的颠覆性发展, 那就是机器翻译。
后来出现的神经图灵机不仅能读能写, 还能自主学习简单程序。它只需要看看杂乱无章的样本, 就能轻松学会各种技巧。以后我们再也不用头疼那些要花大力气才能完成的任务了。这种自我编程技术未来肯定会大放异彩, 可以适用于几乎所有的任务。
与此同时, 深度学习在强化学习领域的发展也日新月异。它就像一个自己玩游戏的小孩子一样, 可以独立地通过不断试错来学会完成任务。机器人也受益于深度学习的进步, 现在它们的强化学习性能大大提高, 就像小学生考试前突然变得聪明一样, 真是让人惊叹不已!
除了在计算机里训练出高智商, 深度学习还能为神经科学贡献一份力量。现代卷积神经网络的对象识别技术让神经科学家们有了研究视觉处理模型的新工具, 这下他们要感激深度学习了。深度学习不仅能处理海量数据和做出有效预测, 还可以帮助制药公司设计新的药物, 找寻亚原子粒子, 甚至自动解析用于构建人脑三维图的显微镜图像。看来, 深度学习可真是“全能型选手”。未来, 我们期待能在越来越多的科学领域中见到深度学习的身影。