FlagEval
分类:AI模型评测
标签: # AI
网址:https://flageval.baai.ac.cn/
SEO查询: 爱站网 站长工具
FlagEval(天秤)是由北京智源人工智能研究院推出的一个大模型评测平台,旨在为AI基础模型提供科学、公正、开放的评测基准和工具。该平台采用“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,覆盖了自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)和多模态(Multimodal)等多个领域,支持多种下游任务。
相关网站
AI眼镜巨大的增长前景正在吸引越来越多巨头入局。继华为、百度、小米之后,阿里被曝将于本周发布首款自研AI眼镜,周鸿祎也透露360将发布智能眼镜产品,并强调做眼镜必须带“显示”的功能。业内认为,AI眼镜...
7月21日消息,中国互联网络信息中心(CNNIC)发布第56次《中国互联网络发展状况统计报告》(以下简称《报告》)。报告显示,截至6月,我国网民规模达11.23亿人,互联网普及率达79.7%;60岁及...
近两年,以大模型为代表的AI行业,其迭代速度之快,已经远超我们想象。昨日还是聚光灯下的行业明星,明日可能就不得不黯然退场。近日,AI智能体明星公司Manus突然清空其国内社交平台的所有内容。有媒体爆料...
腾讯在CVPR2025(计算机视觉领域顶会之一)上,宣布混元3D 2.1大模型对外开源,这是首个全链路开源的工业级3D生成大模型,达到了行业领先水平。目前,混元3D模型在Hugging Face(知名...
DeepSeek很热,但它对企业的大影响还没全面到来。” “许多企业拥抱AI,还要补数字化的课。” “智能体归根结底是一个软件,规模化应用要有信息化基础” “所有企业都应该开发知识库和智能问答系...
来源:巨潮WAVE作为全球科技领域金字塔顶尖的产业,如今的“全球芯片五巨头”全都由华人掌管。随着英特尔新CEO走马上任,陈福阳、黄仁勋、陈立武、苏姿丰、魏哲家分别主导博通、英伟达、英特尔、AMD和台积...
DeepSeek R1 模型完成小版本升级,更新至最新版本 DeepSeek - R1 - 0528。此次升级后的 R1 模型在诸多关键能力上有了大幅提升,包括复杂逻辑推理、长文本处理稳定性以及代码生...
DeepSeek正式官宣DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528,并披露了一系列能力更新。28日晚间DeepSeek在其官方交流群中突发通知:Deep...