专精特新企业作为中小企业群体的领头羊,是增强我国制造业核心竞争力的坚实支撑,在提升产业链供应链稳定性和安全性、推动经济社会发展方面发挥着重要作用。
日前,咨询机构弗若斯特·沙利文联合头豹研究院发布《2023年中国专精特新企业发展白皮书》(以下简称《白皮书》),从行业视角维度解读了我国专精特新企业发展背景与发展现状。以下,enjoy:
点击上方联想控股微空间→右上角···键→设为星标⭐
数据是AI大模型的“养料”,其越丰富、越准确,AI的能力就越强大。
然而,随着AI大模型加速发展,全世界的高质量数据正在告急。
以文本数据为例。根据AI发展科研机构Epoch AI报告显示,目前人类公开的高质量文本训练数据集约有300万亿tokens,预计将于2026年-2032年消耗完。
如何给AI喂上充足的“数据养料”?对此,合成数据正成为业界公认的解决之道。
01
数据如何合成?
合成数据是人为通过算法和模型创建的数据,生成方式主要包括统计分布生成、基于特定领域规则生成、利用深度学习方法生成等。
该方式通过分析真实数据的统计分布特点,创建在统计学上与原始数据集相似的数据集。
例如,在药物研发过程中,研究人员可通过分析历史患者数据,找到不同疾病状态下生理指标(如血压、血糖水平)的统计分布特点,如正态分布、偏态分布或更复杂的混合分布等。通过模拟这些分布规律合成患者数据,提升药物测试效率。
该方式基于客观世界规律建立相应的模型,模拟真实场景,获得多元数据。这类合成数据能保持与现实世界复杂场景的一致性,且具备一定可解释性。
例如,在训练自动驾驶模型时,基于物理规律,数据工程师可以建构模型来模拟光与不同材料相互作用的过程。通过改变光照条件,该模型就能够模拟晴天、阴天等不同天气中的驾驶场景,从而获得相应的驾驶数据。
该方式借助生成对抗网络(GAN)、变分自动编码器(VAE)等高级技术,来生成更复杂、质量更高的合成数据集。
以GAN为例,其包括两个深度神经网络——生成者网络和辨别者网络。生成者网络负责生成新数据,辨别者网络预测输出的是虚假数据还是真实数据。这两个网络在对抗性游戏中训练模型,不断生成更新、改进假数据值,直到辨别者网络不再能够区分假数据值和原始数据值。
02
合成数据的优势
合成数据可根据实际需求生成海量可训练的数据集,具有天然的数量优势,能够有效弥补真实数据的不足。同时,合成数据省去了传统数据采集过程中的标注、处理等环节,更具成本优势。
此外,合成数据不包含真实的个人身份信息,能够很好地保护数据和隐私安全,有助于推动AI大模型在医疗、金融等数据使用受限或信息敏感的行业加速应用落地。
得益于合成数据的优势与潜在的市场需求,国内外科技公司纷纷瞄准合成数据领域加大投入与布局。
例如,美国AI初创公司Anthropic使用合成数据为其聊天机器人Claude提供动力;谷歌DeepMind则利用合成数据来训练能够解决复杂几何问题的模型;Meta推出了AI模型Llama 3.1,能够生成合成数据,并依赖这些数据进行训练“微调”。
从国内来看,相关企业也积极通过合成数据来助力研发突破。
联想控股战略合作企业、君联资本所投企业智谱AI近日发布新一代基座大模型GLM-4-Plus,其在语言理解、指令遵循、长文本处理等方面的性能全面提升,并保持国际领先水平。据悉,该模型即使用了大量模型辅助构造高质量合成数据以提升性能。
联想集团旗下联想创投所投企业跨维智能打造了底层自研的DexVerse™空间与具身智能引擎,能够针对具体的商业场景,实现“物理仿真—数据合成—模型训练”的全链条自动化,并基于此形成空间与具身智能大模型套件及纯视觉智能传感器,赋予通用机器人智慧的大脑和双眼。目前,跨维智能已在多个商业场景中,实现以100%的合成数据,在毫米/亚毫米的操作精度要求下,达到99.9%以上的任务成功率。
科技企业竞相入局,合成数据有望在合成方式、模型性能、算法等方面逐步突破,解决当下质量参差不齐、健壮性和泛化能力有限等问题,在金融、医疗、智能驾驶等领域率先落地。
根据IT咨询公司Gartner测算,预计2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由AI合成。而根据市场调研机构Markets And Markets测算,全球合成数据市场规模将从2023年的3亿美元增加到2028年的21亿美元,复合年增长率为45.7%。
高速增长之下,合成数据将与真实数据双向互补,持续为AI提供高质量的“数据养料”,带来更强劲的模型性能,助力千行百业实现数智化转型。
参考链接
>《什么是合成数据?》
>《什么是合成数据?有哪些合成方法?一文看懂》
>《合成数据或破数据量瓶颈,哪些领域将率先落地》
>《ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据》
>《AI产业背后的亿级美金市场:合成数据》