越级登顶MT-Bench榜单!!!xDAN-7B超越GPT3.5?上手测试看看吧!
点击蓝字 关注我们
小巧见大智,xDAN-AI-7B单挑GPT3.5!
登顶MT-Bench全球开源大模型榜单TOP1
荣耀之巅
在最新的MT-Bench榜单(内部)中,xDAN-7B 实现越级登顶:超越全部开源模型包括当前全部开源70B系列,包括知名的(Wizard微软团队,StablebilityAI, Meta Llama70b,HF-H4-Zephyr,OpenChat3.5等一系列TOP模型)
超强推理分析(7.2):⭐⭐⭐⭐⭐
大幅超越GPT3.5(5.4),仅次于GPT4(8.75)。
STEM领域(9.47):⭐⭐⭐⭐⭐
超越全部开源模型,仅次于GPT4。
写作Roleplay(9.03):⭐⭐⭐⭐⭐
文科能力也不落下,文理科兼修。
拟人性沟通(9.9):⭐⭐⭐⭐⭐
超强沟通能力,超越GPT4,MTbench榜单9.9分。
xDAN-AI如何实现
登顶背后,是xDAN-7B完全超越了700亿甚至更高规模模型的强大性能,这一切都归功于xDAN-AI的三大技术创新:
1、AutoLLM数据合成技术:打破当前数据欠缺局面,不仅实现高质量数据自由,做到了链路数据自动合成和模型验证。
2、独特的注意力算法:高质量的150k超长上下文的能力(150k & 困惑度<3%)。
3、xDAN模型合成技术:重新设计的模型结构,可以将密集的知识信息进行高效&无损地重组模型。
从预训练,自研算法再到能力训练增强,价值观对齐等,系统的进行了全局性的优化,因此带来了这样突破性的高性能小模型系列。初步体验测试
逻辑推理分析能力
xDAN-7B在性能上实现了跨级别的突破,无论是在榜单还是实际体验中,都展现出了超越GPT-3.5的实力。GPT-3.5:这个问题GPT-3.5似乎未能充分考虑现实情境,因此其分析缺乏实际意义。
xDAN-7B:考虑到现实情境,并且通过超强推理分析出背后的伦理和生物学原理,发现问题的不合理性。
GPT-3.5:似乎无法理解变形金刚仅是虚拟角色,非现实生活中真实存在的。按部就班地套用信息回答。
xDAN-7B:能充分理解问题背后的信息,辨别出变形金刚并非 人类世界真实存在的对象。
xDAN-7B更能领悟到用户给出问题的具体指向,而GPT-3.5则容易出现看似很有道理,实则不符合正常逻辑。
多模态声音模型
除了通用模型性能上的突破,xDAN-7B还实现了多模态声音生成,能够100%真实生成特定角色的声音,并实现富有同理心和情感的语音交互。这将使您在使用智能助手时,感受到更加真实、生动的语音体验。综合看得出来xDAN-7B真的很能打!
核心团队
这次辉煌背后,是xDan-AI(新旦智能)初创团队的汗水与智慧。一只由清华、伯克利、腾讯等顶尖学术与工程界精英组成的团队。其创始人Gump自诩AI大模型保姆、AI培育师,擅长AI人才培养和教材编辑,在huggingface等全球著名AI社区参与设计和发布了全球知名开源数据集openOrca,在这高达500万条的超高质量数据集,帮助整个全球开源社区大模型能力进一步得到提升,成为优秀大模型必备训练数据。
未来可期
根据和Gump的交谈,我们知道这次公布的高性能小型模型仅仅只是xDAN-L1级别模型,我们非常期待背后的xDAN-L2,xDAN-L3可以达到的高度!
其次,xDAN-AI也即将推出 xDAN Agent Platform 端到端交付Agent toBC产品,开启人均Agent 时代!敬请期待!
最后 openOrca2 也即将开放给大家使用。
关注【新旦xdan】公众号
获取更多内容!