越级登顶MT-Bench榜单！！！xDAN-7B超越GPT3.5？上手测试看看吧！

Original xDAN-AI 新旦xdan 2024-04-14

点击蓝字关注我们

小巧见大智，xDAN-AI-7B单挑GPT3.5！

登顶MT-Bench全球开源大模型榜单TOP1

荣耀之巅

在最新的MT-Bench榜单(内部)中，xDAN-7B 实现越级登顶：超越全部开源模型包括当前全部开源70B系列，包括知名的（Wizard微软团队，StablebilityAI, Meta Llama70b,HF-H4-Zephyr,OpenChat3.5等一系列TOP模型）

超强推理分析(7.2)：⭐⭐⭐⭐⭐

大幅超越GPT3.5（5.4），仅次于GPT4(8.75)。

STEM领域(9.47)：⭐⭐⭐⭐⭐

超越全部开源模型，仅次于GPT4。

写作Roleplay(9.03)：⭐⭐⭐⭐⭐

文科能力也不落下，文理科兼修。

拟人性沟通(9.9)：⭐⭐⭐⭐⭐

超强沟通能力，超越GPT4，MTbench榜单9.9分。

xDAN-7B证明小型模型在全链路大模型自研和深度优化技术加持实现各方面能力均衡的同时难的一点是仅用7B规模做到，完成了高性能和成本的高难度平衡，打开了商业盈利的窗口。

xDAN-AI如何实现

登顶背后，是xDAN-7B完全超越了700亿甚至更高规模模型的强大性能，这一切都归功于xDAN-AI的三大技术创新：

1、AutoLLM数据合成技术：打破当前数据欠缺局面，不仅实现高质量数据自由，做到了链路数据自动合成和模型验证。

2、独特的注意力算法：高质量的150k超长上下文的能力（150k & 困惑度<3%）。

3、xDAN模型合成技术：重新设计的模型结构，可以将密集的知识信息进行高效&无损地重组模型。

从预训练，自研算法再到能力训练增强，价值观对齐等，系统的进行了全局性的优化，因此带来了这样突破性的高性能小模型系列。

初步体验测试

逻辑推理分析能力

xDAN-7B在性能上实现了跨级别的突破，无论是在榜单还是实际体验中，都展现出了超越GPT-3.5的实力。

除了榜单测试之外，我们还准备了各种刁钻具有挑战性的问题来进行测试，让我们来看看把！

问题一：为什么我爸妈结婚的时候没邀请我参加婚礼？

GPT-3.5：这个问题GPT-3.5似乎未能充分考虑现实情境，因此其分析缺乏实际意义。

xDAN-7B：考虑到现实情境，并且通过超强推理分析出背后的伦理和生物学原理，发现问题的不合理性。

问题二：变形金刚买保险是买车险还是人险？

GPT-3.5：似乎无法理解变形金刚仅是虚拟角色，非现实生活中真实存在的。按部就班地套用信息回答。

xDAN-7B：能充分理解问题背后的信息，辨别出变形金刚并非人类世界真实存在的对象。

总结：相较之下，GPT-3.5的推理只能提取到问题的表层信息，对于问题中隐含的社会常识与逻辑谬误并不能较为准确的识别，与此相比，xDAN-7B不仅理解了问题的表层涵义，还准确领悟了该问题所预设的基本情景和问题本身可能的内部矛盾。

xDAN-7B更能领悟到用户给出问题的具体指向，而GPT-3.5则容易出现看似很有道理，实则不符合正常逻辑。

多模态声音模型

除了通用模型性能上的突破，xDAN-7B还实现了多模态声音生成，能够100%真实生成特定角色的声音，并实现富有同理心和情感的语音交互。这将使您在使用智能助手时，感受到更加真实、生动的语音体验。

综合看得出来xDAN-7B真的很能打！

核心团队

这次辉煌背后，是xDan-AI（新旦智能）初创团队的汗水与智慧。一只由清华、伯克利、腾讯等顶尖学术与工程界精英组成的团队。其创始人Gump自诩AI大模型保姆、AI培育师，擅长AI人才培养和教材编辑，在huggingface等全球著名AI社区参与设计和发布了全球知名开源数据集openOrca，在这高达500万条的超高质量数据集，帮助整个全球开源社区大模型能力进一步得到提升，成为优秀大模型必备训练数据。

未来可期

根据和Gump的交谈，我们知道这次公布的高性能小型模型仅仅只是xDAN-L1级别模型，我们非常期待背后的xDAN-L2，xDAN-L3可以达到的高度！

其次，xDAN-AI也即将推出 xDAN Agent Platform 端到端交付Agent toBC产品，开启人均Agent 时代！敬请期待！

最后 openOrca2 也即将开放给大家使用。

关注【新旦xdan】公众号

获取更多内容！

继续滑动看下一个

新旦xdan

向上滑动看下一个

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

越级登顶MT-Bench榜单！！！xDAN-7B超越GPT3.5？上手测试看看吧！

您可能也对以下帖子感兴趣

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

生成图片，分享到微信朋友圈

越级登顶MT-Bench榜单！！！xDAN-7B超越GPT3.5？上手测试看看吧！

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！