如果用一个词来概括2023世界人工智能大会(WAIC2023)的热点,那么大模型当之无愧。百度文心、阿里通义、华为盘古、讯飞星火、商汤日日新、复旦MOSS……国内外30余款大模型将同台竞技,背后的核心开发团队也将悉数亮相。
这是一条“狂飙”的新赛道。去年底,对话式大型语言模型Chat GPT火爆出圈,激起AI领域“千层浪”,也带动大模型这一重要的底层基座变得炙手可热。今年以来,国内“百模大战”趋于白热化,那么下一步是重技术还是重应用?自主研发大模型,对于上海科创中心建设有着怎样的意义?2023世界人工智能大会开幕之际,记者采访了复旦大学计算机科学技术学院教授邱锡鹏。
作为学界顶尖研究者,邱锡鹏还有一个更让人关注的身份——复旦大学MOSS系统负责人。今年2月,邱锡鹏团队发布MOSS,成为国内首个发布的类ChatGPT模型。
复旦大学MOSS系统亮相WAIC2023,将是该大模型首次现身大型展会。邱锡鹏告诉记者,过去5个月来,MOSS系统日夜成长,不断迭代优化,比如:4月20日,第三轮迭代版本MOSS003大模型上线,成为国内首个插件增强的开源对话语言模型。“相比2月‘出生’时,如今的MOSS系统性能提升不少,主要表现在逻辑能力、无害性、有用性等方向。”邱锡鹏总结道,大模型靠大量语料来训练,一些能力已超越大部分成年人。
“围绕大模型,我们做的不仅仅是模型本身,还有很多挑战要解决。”邱锡鹏举例说,其中一个就是普惠化,即将大模型巨大算力成本降下来,“过去优化一个百亿参数量级的大模型,需要数个A100芯片做硬件支撑,一台机器就要100多万元,并非普通研究机构承担得起。”5个月来,这也是邱锡鹏的主要研究方向之一。就在上个月,他带领团队发布了低内存优化技术(LOMO),可将大模型训练内存使用量降低到之前的10.8%,新方法能够在一台消费级显卡的机器上,对650亿参数大模型进行全参数微调,大大降低了使用门槛。
随着ChatGPT火遍全球,国内“大模型之战”也已打响。中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,截至5月底,国内10亿级参数规模以上的大模型已发布79个,互联网大厂、人工智能公司、行业头部企业、高校及科研机构、大数据及云计算供应商都参与到大模型的比拼中。如果算上垂直应用方向,说“千模大战”并不过分。
那么,走出实验室阶段的大模型,未来发展应该更重技术还是更偏应用?在邱锡鹏看来,技术与应用两手都要抓。作为一线科研工作者,他对于当下国内的大模型技术并不满意,“虽然是‘百模大战’‘千模大战’,但国内竞逐者的大模型基座比较雷同,从技术到模型架构,再到能力,没有让人特别眼前一亮的产品。竞争者未来一定要结合自主研发,做出更多有创新性的产品。”
邱锡鹏也提到了应用驱动的重要性,正如中国在移动互联网应用领域领跑全球,应用是我们的优势项。“任何技术走出实验室,在下游落地应用的过程中,都会遇到很多挑战,以应用驱动技术发展是一种很好的方式。”但他指出,目前国内缺少的是支撑高级应用的功能,比如一些高级的插件以及推理能力,特别是在有用性方面,缺少能真正帮助人们提升效率的杀手级应用。
他透露,目前复旦大学MOSS系统在开源社区里的下载量排名靠前,“截至目前,我们已收到几百家企业的使用申请,覆盖智能信息服务、金融、医疗、教育等行业,不少企业在使用后也给出反馈,绝大部分希望在垂直领域有进一步优化。”
作为生成式人工智能的技术底座,大模型无疑是兵家必争之地。从《报告》数据来看,国内大模型的“出产地”集中在北京、上海、广东和浙江等省市,这4个地方也是近3年人工智能服务器采购数量最高的地区。
在邱锡鹏看来,争夺大模型的技术底座话语权,对于上海科创中心建设的意义重大。相比于国外技术实力,目前国内大模型还有一定差距,体现在语料清洗、工程、算法等方面,对自主研发的要求很高。再往生态圈延伸,国内大模型需要从头到底有一套自主研发的技术,适配国内的配套硬件,保障在任何环节不被卡脖子。邱锡鹏认为,上海在前沿科技领域有独特的优势,体现在人工智能企业数量多、能级高,从底层技术到大模型、算力,从系统设计到应用,全链条企业都有涉及,更容易从生态上做规划。
就在近日,《上海市推动制造业高质量发展三年行动计划(2023-2025年)》出炉,其中对大模型、算力等多方面作出指引,提出“瞄准人工智能技术前沿,构建通用大模型,面向垂直领域发展产业生态,建设国际算法创新基地”。邱锡鹏认为,上海应发挥自身优势,在AI大模型领域走出有中国特色的创新路。
责任编辑:唐玮婕
阅读原文