股票配资网站开发 13.8%和13.11%哪个大？《歌手》排名引网友热议！一众大模型竟然也翻车 ChatGPT更是胡言乱语

　　7月13日，最新一期的《歌手》公布排名，孙楠得票13.8%，外国歌手香缇莫得票13.11%。引发了网友对排名的质疑。

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3baLqQR2QclTV36qRJicVrxRDjZib88iaz5NUe9ickxwqz9YNn9YjUBbOunw.png

　　不少网友认为13.11%大于13.8%，因此，香缇莫的得票率比孙楠高。

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3bRiaYg9BVp2iclFl16KsRL1bibtvUqG8cNc3LMmBh3avD4UzgvfZ8zJWow.png

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3bB0ia9h15ziacJsrLtxb9l1XI4OCD0UBIxZ9HCTVxvAtwEKEAicFiackKug.png

　　随后，关于13.8和13.11大小比较的话题，迅速冲上微博热搜！

　　其实，这个知识点在小学四年级的课本中就有答案。

　　然而，这道小学生难度的数学题也难倒了一众海内外AI大模型。

　　据第一财经、财联社等媒体测试，ChatGPT、Kimi、智谱清言、商汤商量、阶跃星辰等大部分大模型应用纷纷翻车，而文心一言、字节豆包等少部分大模型则守住了尊严。

CFF20LXzkOzG21u7XsBajickl1hWricc8fz9QEJL2vVFTPb4ibKd0dWYOpZ1Sf5brbtSqUeSMVZHjVFm0vxs86o2Q.jpg

　　值得注意的是，ChatGPT等大模型出现了胡说八道的现象。在为13.8填补了13.80的零位数后，才得出了正确的回答。这类大模型说胡话的现象，在业界被称为大模型出现幻觉。此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

17世纪,伊斯兰教传入中国西北,在那里生根发芽。随着时间推移,西北地区形成了独特的"门宦"制度。这种制度将宗教和政治权力高度集中,导致西北地区长期不太平,叛乱此起彼伏。

　　有产业界人士表示，目前大模型的幻觉率仍然较高，这也是产业界缺乏真正颠覆性应用的原因之一，业界都在共同解决这一核心问题，让大模型在业务流程中变得更可控。

　　据报道，今年6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，本次评测采用全国新课标Ⅰ卷，其中，语文评卷显示，大模型的现代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题，虽有针对性，但缺乏修饰，几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”，大模型也无法完全理解。

　　数学评卷显示，大模型的主观题回答相对凌乱，解题过程有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强，但无法在解题过程中灵活运用。

　　大模型的英语整体表现良好，大模型写的英语作文普遍存在因超出字数限制被扣分的情况，而人类考生大多因为字数不够被扣分。

　　据第一财经，一位算法工程师认为，生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性，使得AI在文字创作上达到人类平均水平，而数学推理更需要的是因果性，数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维的训练，从而具备推理演绎能力。

　　不过，上述问题也正在慢慢被解决，在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练，而这些数据中数学问题和解决方案相对较少，导致模型在数学推理和问题解决技能上的训练机会有限。

　　值得一提的是，大模型的复杂推理能力尤为重要，这关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。

　　“现在很多大模型的应用场景是客服、聊天等等，在聊天场景一本正经胡说八道影响不太大，但它很难在非常严肃的商业场合去落地。”上海人工智能实验室领军科学家林达华此前表示股票配资网站开发，复杂推理关系到落地应用时大模型的可靠性，例如在金融这样的场景下不能在数字上有差错，会对数学上的可靠性有较高的要求。另外随着大模型进入商用，若要分析一家公司的财报，甚至是工业领域要去分析一些技术文档，这时数学方面的计算能力就会成为一个壁垒。