激活语料库高质量发展内生动力,上海数交所加入中国大模型语料数据联盟

发布时间:2023-09-15 14:14:33

当前,高质量、多模态、宽领域的数据支持已成为人工智能大模型发展的重要基石。9月8日,上海数据交易所等9家新成员单位加入“中国大模型语料数据联盟”,共同助推大模型技术高质量发展。

中国大模型语料数据联盟是由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团、上海数据集团、上海市数商协会、金杜律师事务所等单位发起成立的开放组织,联盟于2023年7月6日世界人工智能大会开幕式上宣布成立。上海数交所将以加入联盟为契机,与语料数据生态企业加强交流合作,丰富高质量语料数据供给,活跃市场生态建设。

今年4月,中共中央政治局会议指出,要重视通用人工智能发展,营造创新生态,重视防范风险。7月,上海市人民政府办公厅印发《立足数字经济新赛道推动数据要素产业创新发展行动方案(2023-2025年)》,明确创新数据产品供给,建设高质量数据集,开展数据质量评估评价,构建面向大模型的高质量语料库,形成标准操作流程和技术规范。

立足国家数据交易所定位,上海数交所发挥平台信息聚集匹配功能,积极推进高质量语料库建设,助力中国人工智能产业发展,于7月7日正式上线语料库。截至目前,上海数交所语料库累计挂牌60多个语料数据产品,数据规模超过10TB,包含文本、音频、图像等多模态,覆盖金融、交通运输、医疗等领域。上海数交所还牵头发起语料数据生态创新合作伙伴计划,积极引导不同行业、不同领域、具有一定规模的高质量语料数据产品挂牌交易,进一步丰富语料库多样性。

以应用场景为导向,上海数据交易所构建六类特色标签服务体系,涵盖15个应用领域,制定适用于通用大模型和垂类大模型的差异化推荐策略,通过特色标签化服务体系助力垂直领域供需方精准匹配;创新语料数据流通模式,组织协调多方共建项目,建立长期可持续性运营的机制,兼顾开源共享和商业化使用的需求。上海数交所牵头建设的国内首个数据交易链,解决了数据可信流通和分布式交易等多维度难点,并配备相关规范指引,为大模型语料数据流通交易提供合规与安全保障,确保建设工作的长期可持续性。

加入中国大模型语料数据联盟,上海数交所将围绕语料数据共建数商生态,以持续扩大语料库规模,探索完善语料数据的交易流通机制。