您当前的位置:首页> 滚动 >正文
黄铁军:ChatGPT训练只用了百分之几的中文数据

2023-06-17 13:46:47     来源 : 凤凰网


【资料图】

凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,谈到对中英文大模型算法分析的看法,黄铁军表示,ChatGPT训练时用的英文数据多,中文数据只有百分之几,所以英文表现得比中文好。

凤凰网科技《浪潮》:我们刚才也提到了一个上下游,因为要进入到这个生态里边,要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解,它们的算法,都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易,或者是哪个更困难一些?

黄铁军: ChatGPT当初训练的时候用的确实是英文数据多,中文数据少,而且据我们了解,他们也用了智源中文的数据集,但他们用的中文数据只有百分之几,所以它英文表现得比中文好,这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据,那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设,确实对于未来大模型发展来说是特别重要的一项工作。

(责任编辑:王治强 HF013)

标签:

热门推荐

精彩放送

X 关闭

行业要闻
青岛是几线城市?青岛几月份去旅游最好?

青岛是几线城市?青岛几月份去旅游最好?

全国首个!建筑工程全生命周期项目管理平台来了

全国首个!建筑工程全生命周期项目管理平台来了

土巴兔公司持续盈利能力存疑 毛利率超90%比肩茅台净利率仅10%

土巴兔公司持续盈利能力存疑 毛利率超90%比肩茅台净利率仅10%

6月底前河南省实现“场所码”全覆盖 升级后的“场所码”有啥功能

6月底前河南省实现“场所码”全覆盖 升级后的“场所码”有啥功能

公安部推行新车上牌新规 便利群众快捷上牌

公安部推行新车上牌新规 便利群众快捷上牌

北京市经信局公布今年第三批北京市“专精特新”中小企业名单

北京市经信局公布今年第三批北京市“专精特新”中小企业名单

“520”迎婚姻登记高峰!深圳市民政局:高峰日扎堆登记可能影响体验感

“520”迎婚姻登记高峰!深圳市民政局:高峰日扎堆登记可能影响体验感

北京市东城区41条措施落地 2790家中小微企业享受政策支持

北京市东城区41条措施落地 2790家中小微企业享受政策支持

地球上最幸福的人!56岁非洲建筑师获普利兹克建筑奖

地球上最幸福的人!56岁非洲建筑师获普利兹克建筑奖

新疆阿克苏地区库车市发生4.1级地震 震源深度21千米

新疆阿克苏地区库车市发生4.1级地震 震源深度21千米