大模特如何更懂“中国人”?
栏目:行业动态 发布时间:2025-12-25 10:30
原标题:如何用高质量的中文数据集加快大型模型建设,更好地读懂“中国”(“十五五”文化热词·促进文化与科技融合)《过马路时一定要注意汽车!》 “我打算明天去车展看看车。”这两句话中“看车”的意思是一样的吗?相信很多人都会会心一笑。从表面上看,这是同一个短语,但由于上下文不同,其含义发生了变化。这是汉语中普遍存在的“一词多义”现象。大规模人工智能模型是与人类语言密切相关的技术。大规模模型要深入理解这一现象,离不开中国数据的持续供给。目前,中国数据有60%以上用于训练大部分国内模型的数据,部分模型达到80%。增加的意义何在中国数据在大模型训练中所占比例?中国优质数据为何持续上涨?如何进一步加大中国数据的开发和供给?记者进行了采访。数据就像大模型的“知识教科书”。不同语言的数据对大型模型的性能有什么影响? “数据就像一个大模型的‘知识教科书’,教科书语言的不同特征会对模型的知识体系产生不同的影响。”清华大学计算社会科学与国家治理实验室执行主任、教授孟庆国说。从知识来源来看,我国的大模型过去都面临着“数据依赖”的风险——英文数据在全球互联网中占比很高。例如,前沿科技论文、行业标准、文化经典等经常被呈现。n 英文,全球高质量标注数据往往都是英文的。 “基于大型语言的模型通常必须符合某些语言行为。”工业和信息化部信息通信经济专家委员会委员潘和林认为,中国数据占比的增加,不仅让用户更容易了解输出结果,也保证和提高了我国在大模型方面的研发能力。 “如果中国数据占比较低,该模型将在技术重大迭代中容易受到‘数据授权限制’和‘更新延迟’的影响。”孟庆国表示,提高中国数据比重,有助于我国在“数据安全”和“技术独立”方面迈出重大步伐,有助于我国在构建独特的大规模模型方面占据主动。 “中国的文化习俗、隐喻表达、政策规则等ta 很难用英文数据来表示。 “模型长期研究英文数据生成的‘英文认知逻辑’,在理解中国特有的思维方式时容易出现偏差。”科大讯飞消费者AI互动事业部总经理赵彦军表示,中文数据占比的增加,提高了大模型理解中国文化和场景的能力。比如中医问诊中,“热”、“湿”等概念需要有中文语境才能准确推理。从知识的角度来看汉语数据给我国带来了几千年的文化积淀,汉语数据占比的提高将让大模型推动中国文化的数字化传播。”汉语数据占比高的模型可以解释‘文言虚词的使用’、‘诗词规则’等。例如,当解释“‘知乎者也’,可以结合《论语》、《孟子》等中国经典案例,让传统文化教育更加生动。”孟庆国说。高质量中文数据的提供能力不断增强。标准的中文数据和高质量的中文数据有什么区别?典型数据大多是未经分析的网络文本,内容不专业,容易出现事实错误或概念混乱。高质量的数据必须经过“事实核查”。要了解高质量中文数据的重要性,可以从医学诊断的专业场景入手。今年8月,中医临床医学知识图谱《泛医学知识图谱》在浙江台州发布。“目前,大模型学习到的一些医学知识都来自于互联网上的公开数据,这些公开数据有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨、有的不严谨等。”内容矛盾,有的滞后更新。这些情况都会对大模型产生的结果产生负面影响。”浙江省医学智能决策重点实验室主任林辉表示,“泛医学知识图谱”中的数据经过医学专家分析,每个知识点来源清晰,医学发展动态更新。大模型性能的提升体现了中国高质量数据的价值。在一系列因素的共同努力下,中国高质量数据的供给能力不断提升——有了政策来自“数据元素”技术上的突破。由于中文数据“歧义性多、上下文依赖性强”,早期标注成本是英文数据的1.8-2.5倍。随着技术的不断进步,开发难度也随之降低。 Halim毕竟是国内的“中国人”“语义标注系统”可自动区分“电话”中“汗”的含义和“汗”通话的含义,标注效率提升三倍,有效降低成本。业界已达成共识。国内垂直场景对大规模“汉语适配”模型的需求持续升温,推动汉语数据从“辅助补充”走向“核心资源”,越来越多的企业参与到汉语数据的开发中。例如,中国移动开发了通用高质量数据集,超过3500TB。 Token(俗称“代币”)是处理文本的最小数据单位,截至今年9月底,我国日均Token消费量突破40万亿。中国数据有待改进吗?专家学者提出了想法和建议。首先是标准的制定。现有的中文数据中,重复内容较多,高质量数据较少。尤其是在医疗、工业等垂直领域,高质量的数据更加困难。例如,在医疗数据中,有的医院在病历中只写“发烧”,而有的医院则写“发烧38.5摄氏度,咳嗽2天”。如果没有一个“尺子”标准来判断数据的好坏,进一步的发展就难以推进。 “明确各个领域的中文注释标准后,将更有利于评价和激励机制的发展和完善。”孟庆国认为,应加快研究制定中国数据分类标准,从而激发出中国数据供给的活力。二是技术过硬。在生成高质量数据的过程中一套下来,还是难免会遇到大量的数据孤岛和合规问题。例如,不同机构的数据由于隐私、安全等合规要求,难以跨域流通,导致不同机构对数据进行重复标注,既浪费资源,又无法达到规模效应。 “新一代技术标注方法可以推广应用,在原始数据不出域、保证隐私安全的情况下完成跨机构协同标注,从而整合多机构力量,避免重复工作。”赵彦军说道。另外,场景还需要增加。我国产业体系完整,其广度和深度决定了对更多更细分情况的中国数据的需求。 “例如,在元界这样的新兴情况下,使用的中文数据量仅为 1英语/5; “又如中医药、非物质文化遗产等传统场景数字化水平较低,大量重要信息尚未转化为可用的数据源。”孟庆国表示,可以推动政产学研合作,专门采集不同垂直场景的中国数据,激活产业应用。推动文化与科技融合。“十五五”规划纲要提出“促进文化融合”。探索文化与科技融合的有效机制,需要运用互联网思维和信息技术改善文化创作生产流程,推动文化建设数字化赋能和信息化转型。“文化IP+科技体验”正在改变文化生态。文化旅游产业学.通过线上数字平台与线下沉浸式体验相结合,多地打造数字文旅空间,开发“旅游+智慧”新应用,实现文化与科技双向赋能。 “文创+人工智能”拓展产业融合场景。目前,以大模型为代表的人工智能技术已深度融入影视、文化博物馆等领域,催生了人工智能短剧、博物馆数字文物等新产品,不仅丰富了文化表达方式,也培育了更多文化消费新场景。 “特色文化+数字科技”助力乡村全面振兴。通过数字技术,融合地标农产品与农村非物质文化遗产内容创作实践微短剧等可以进一步提升特色文化产品的创作能力和表达能力,为乡村全面振兴注入新动能。 ——北京大学文化产业研究院学术委员会主任 陈少峰