亲,双击屏幕即可自动滚动
正文 第237章 真正地做数学推导
    于此同时,一辆黑色的商务车缓缓驶入校园,稳稳停在实验室楼下。

    

    车门打开,一个身着深灰色西装、面容干练的中年男人快步走了下来。

    

    林正宏昨天深夜接到了江明远传来的消息,说肖宿那边的AI智能体研究终于结题了。

    

    没有丝毫犹豫,他立刻推掉了所有行程,订了最早一班飞往京城的机票,连夜赶了过来。

    

    这半年来,林正宏始终关注着课题组的进展,偶尔也会通过江明远询问情况。

    

    他也清楚,像肖宿这样的天才,心思全在科研上,对商业合作毫无兴趣,所以从来没有主动登门打扰过。

    

    直到昨天接到消息,得知肖宿已经完成了技术突破,他再也按捺不住,连夜赶来,就是想第一时间见证这份成果,敲定最终合作事宜。

    

    “林总,您可算到了!”

    

    江明远早已在实验室楼下等候,身边还站着林宇。

    

    “江书记,林主任,辛苦二位久候了!”

    

    林正宏快步上前,脸上露出热情的笑容,语气里满是急切。

    

    “肖宿同学的研究,真的彻底结题了?小智的性能,真的达到预期了?”

    

    江明远笑着侧身引路,语气周到得体。

    

    “林总放心,肖宿的能力,你还不了解?绝对超出预期。

    

    不过丑话说在前面,肖宿这孩子,心思全在学术上,最烦商业合作的琐事,一会儿见到他,咱们少谈客套,多谈成果,具体合作细节,后续我来跟你对接,保证不耽误事。”

    

    林正宏连连点头,“明白明白!我这次来,主要是亲眼看看小智的性能,绝不打扰肖宿同学搞研究!”

    

    三人快步走进实验室。

    

    实验室里很安静,只有键盘敲击的轻响和纸张翻动的声音。

    

    苏芮、林砚、周瑾正专注地整理着实验数据,刘浩然凑在肖宿身边,探头探脑地看他演算,嘴里还小声嘀咕着什么。

    

    顾清尘从里间的办公室走了出来,看到林正宏,脸上露出温和的笑容:“林总来了,快请坐。”

    

    此话一出,众人这才发现林正宏几人。

    

    林正宏连忙上前,握住顾清尘的手,语气恭敬:“顾教授,又见面了。肖宿同学的成果,我早就想亲眼看看,今天终于有机会了。”

    

    顾清尘笑着点了点头,随即示意刘浩然。

    

    “浩然,你来演示一下小智的性能,顺便给林总讲讲,肖宿的核心学术思路。”

    

    刘浩然立刻来了精神,他快步走到电脑前,点开演示程序。

    

    刘浩然清了清嗓子,手指在触摸板上滑动,调出早已准备好的演示界面。

    

    “林总,我先给您一个直观的对比。”

    

    屏幕上弹出两个窗口,左边是小智的解耦框架运行日志,右边是一组标准测试数据。

    

    “这是我们用标准自然语言理解数据集做的测试。

    

    目前全球公开数据里,深度求索的解耦率是76%,谷歌的Pathways是71%,OenAI的GPT-4大约在68%左右。”

    

    他点开小智的测试结果。

    

    “小智,98.47%。”

    

    林正宏的瞳孔猛地一缩。

    

    他虽然早有心理准备,但真正看到这个数字的时候,还是忍不住倒吸一口凉气。

    

    76%到98%,看起来只是二十二个百分点的差距,但在AI领域,解耦率每提升一个百分点,都意味着底层架构的质变。

    

    七十多的解耦率意味着模型能大致分清概念之间的边界,但遇到复杂推理时仍然会“串味”。

    

    而98%……

    

    “这意味着什么,我给您举个例子。”

    

    刘浩然显然早有准备,他打开一个新的窗口,输入了一行字。

    

    “‘证明:如果一个数能被3整除,那么它的各位数字之和也能被3整除。’这是一个初中级别的数学命题,表述很简单,但涉及到自然语言和形式化逻辑之间的转换。”

    

    他先在一个开源的通用大模型上运行。

    

    模型很快给出了答案,文字流畅,步骤清晰,甚至还贴心地加上了“由此可知”这样的过渡词。

    

    “看起来没问题,对吧?”刘浩然笑了笑,手指点在屏幕上,“但您看这里。”

    

    他放大了其中一行。

    

    模型在推导过程中写了一句“设该数为abc,其中a、b、c分别为百位、十位、个位数字”。

    

    “它把‘各位数字之和’理解成了‘三位数的各位数字’,所以它的证明只对三位数成立。它没有真的理解‘任意正整数’这个概念,只是从语料库里匹配到了一个最常见的教学案例。”

    

    林正宏皱起了眉头。

    

    这个问题他太熟悉了。

    

    市面上的大模型,写文章、做总结、回答常见问题都很流畅,可一旦涉及需要严密逻辑推理的内容,就会暴露出“不懂装懂”的本质。

    

    刘浩然关掉开源模型的窗口,打开了小智的测试界面,输入了同样的问题。

    

    小智的回应出现在屏幕上。

    

    “命题:对于任意正整数n,若3|n,则3|S(n),其中S(n)表示n的各位数字之和。

    

    证明:设n的十进制表示为n=a_k·10^k + a_{k-1}·10^{k-1} + … + a_1·10 + a_0,其中0≤a_i≤9。

    

    注意到10≡1(od 3),故10^≡1(od 3)对任意非负整数成立。

    

    因此n≡a_k + a_{k-1} + … + a_0 = S(n)(od 3)。

    

    若3|n,则n≡0(od 3),从而S(n)≡0(od 3),即3|S(n)。证毕。”

    

    刘浩然转过头看着林正宏。

    

    “林总,看到这里,或许您已经发现了不同吧。”

    

    林正宏是做技术出身,虽然不是数学专业,但基础的逻辑素养还在。

    

    他盯着屏幕上的证明,眼睛越来越亮。

    

    “它……它用的是模运算,适用于任意正整数。”

    

    “对。”刘浩然点头,“它没有套用任何现成的教学案例,而是从十进制表示的一般形式出发,抓住了‘10模3余1’这个本质属性。这说明它是真的理解了问题的结构,而不是在做模式匹配。”

    

    “目前市面上所有的大模型,本质上都是‘超高级的完形填空’。它们根据前文预测下一个词,预测得多了,看起来就像是在思考。

    

    但它们没有真正的理解能力。”

    

    “而小智不一样。”

    

    他切到小智的系统架构图。

    

    “这套框架,核心思路是把自然语言、符号逻辑、数学结构这三层完全解耦。

    

    普通的模型处理一句话,是把所有信息搅在一起,像一锅粥。

    

    小智处理一句话,会先把语义层剥开,搞清楚‘这句话在说什么’。

    

    然后把逻辑层分离出来,分析‘这句话的逻辑结构是什么’。

    

    最后把符号层提取出来,确定‘这句话对应哪些数学对象和运算规则’。”

    

    “三层分别处理完之后,再通过辛几何映射模块,把这些信息嵌入到一个加权度量空间里。

    

    在这个空间里,语义相近的概念距离近,逻辑相关的结构有特定的几何对应关系。

    

    然后弗洛尔同调模块在这个空间里做轨道分类,本质上就是在寻找从前提通往结论的最优路径。”

    

    “所以它不是在做文字游戏,它是在真正地做数学推导。”
为您推荐