人工智能大模型如何‘吃’数据?自贡成头部企业落户热土
“嗒嗒嗒、嗒嗒嗒……”11月18日,在一片宽敞明亮的办公区内,随着键盘的敲击声,几十名腾讯云(自贡)数字经济产业基地的数据标注员,正聚精会神地在做同一件事:运用数据标注平台,对采集自全国的道路图片进行数据标注,给人工智能大模型投喂数据。
自贡基地,是腾讯云、自贡市政府、百嘉数字三方联合打造的一个数字经济产业基地。近年来,腾讯、百度、抖音等人工智能头部企业,相继落户自贡大安,打造人工智能产业,开展产业人才培育,进行企业孵化。
预计到2027年,自贡将打造超200个人工智能行业应用场景,建成创新平台50个,培养专业人才1万人,规上企业达到150户,高企达到30户。
“吞下”超2万亿次数据
人工智能大模型每天的学习量惊人
在大安区的腾讯云(自贡)数字经济产业基地,这里有一间很“神秘”的封闭式房间:员工进入须实名登记、严禁携带电子产品,每人一台电脑,大家的工作就是对着电脑输入各种指令。
腾讯云(自贡)数字经济产业基地内,通过3D建模进行数据可视化呈现
他们在干什么?这个“神秘”的工作场景,是数据整理及数据标注的工作日常,为模型训练提供充足的数据支撑。“模型训练分两个步骤,第一个步骤是预训练,在预训练阶段,大模型使用大规模的无标注数据进行学习。”
基地负责人、四川百嘉数字科技有限公司副总经理谭建介绍,这一阶段,通过不断地调整模型参数,使模型能够捕捉到文本中的统计规律和语义信息。目标是让模型具备强大的语言表示能力,为后续的任务提供基础。
他说,第二步骤是微调,在预训练完成后,大模型会根据特定的业务需求进行微调。微调阶段使用有标注的数据对模型进行进一步训练,使模型在特定任务上的表现更加精准。例如,在智能客服系统中,可以针对常见问题进行微调,提高模型的回答准确率。
据了解,腾讯公司的大模型叫“混元大模型”,是腾讯自主研发的大语言模型,具有强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力,在技术架构上,采用基于Transformer的神经网络结构,支持多轮对话、长文记忆,文生文,文生图,图生视频等。
腾讯云(自贡)数字经济产业基地的 数据标注员正对道路采集图片进行数据标注
在训练数据上,主要利用腾讯丰富的互联网数据资源进行训练,包括社交媒体、新闻资讯等,确保了模型对中文语境的深度理解。“混元大模型”每天的学习量惊人,据介绍,为“混元大模型”输送的数据,将总共超过2万亿次!
在运营场景上,“混元大模型”将广泛应用于智能客服、智能助手、内容创作等多个场景,特别是在企业服务和个性化推荐系统方面显示出强大的应用潜力。
自贡成为四川省首批人工智能创新发展试验区
AI将成新质生产力“主角”
自贡人工智能产值将超500亿元
不仅如此,基地基于人工智能的业务还有两大板块:无人驾驶训练和平台内容审核。这些核心业务,都离不开人工智能这个核心技术。
“无人驾驶训练是基于模型、算法等支持,对无人驾驶技术进行数据采集后,开展人工智能化的训练,使其在车主使用时具有现实的指引意义。”谭建说,比如,行驶在道路上,人工智能要学会判断锥形桶、行人等障碍物,以及复杂路况的精确判定等。
第三项业务,是平台内容审核,也离不开人工智能技术的支撑。“公众号、视频号等,有许多关键词需要识别,我们会让人工智能进行第一轮审核,之后还会有人工审核等流程。”他说,如果全部使用人工审核,就会造成效率低下、成本剧增等问题。
这只是自贡人工智能产业的冰山一角,在10月29日举行的2024自贡新质生产力创新发展大会上,自贡市科技局的业务骨干描绘了自贡人工智能制造发展的美好场景:智能驾驶汽车产业、无人机及通航产业、以智能仿真恐龙为特色的娱乐机器人、医疗康复机器人,以及两个人工智能产业基础方向,人工智能零售算力零售服务、人工智能数据标注产业。
最终,自贡的人工智能产业将涵盖制造、文旅、医养、应急安全、社会治理等方方面面,形成自贡特色“6+1”产业体系,计划2027年实现人工智能产业产值超过500亿元。
头部企业相继落户
获批四川省首批人工智能创新发展试验区
为何选择落户自贡?谭建认为,自贡地处成渝地区双城经济圈南翼,其地理位置是一个重要支点。“以自贡为支点,周边有很多产业可以和人工智能相融合。比如自贡的文旅,未来就可以和人工智能相结合,生产出更令人惊艳的作品,这里面的想象空间其实还挺大的。”
他介绍,其次是营商环境,当地政府在手续办理、税收减免、住宿交通等方面,提供了非常好的服务。“还有高校资源,政府在周边为我们对接了大量高校合作资源,取得了很好的效果,让企业能专注发展。”
大安区,是近年来自贡打造人工智能产业的“桥头堡”。该区加速布局人工智能未来产业,推动人工智能数据标注产业聚集成势,吸引百度、腾讯、字节跳动(抖音)三大互联网巨头相继签约落户。
其中,百度阿波罗基地主要业务为高精地图、车道级地图、俯视图、AOI、POI 等业务,企业用户包括吉利、特斯拉等,力争实现车道级导航产品“自贡造、全国用”。腾讯云基地主要业务为地图标注、混元大模型训练等,将打造腾讯云(自贡)数字经济产业基地、人才培育中心、企业孵化中心和数据交付中心。火山引擎基地预计11月实现投产运营。
目前,基地已聚集相关企业20户,员工940人(百度670人、腾讯270人),累计实现产值6917万元(百度2617万元、腾讯4300万元),缴纳税收210万元(百度196万元、腾讯14万元)。入驻企业中,四川百嘉数字科技有限公司8月成功升规入统,成为全市首家规模以上互联网和相关服务业企业,成功填补软件信息技术行业空白。
“近年来,以数据标注为突破口,自贡成功切入人工智能‘数据、算法、算力’三大产业的数据产业。重点引进百度、腾讯、抖音等人工智能头部企业,以龙头带动生态的方式,聚集数据标注相关企业20户,员工1000余人。”
自贡市经信局相关负责人介绍,同时,还成立人工智能协会,培育省级“智改数转”供应商1户(滕洋智能)、市级“智改数转”服务商12户,引进华为云、腾讯云等外地优秀服务商11户。依托优质服务商资源积极为企业搭建供需交流平台,推介专业服务商通过培训、咨询、诊断等方式,紧紧围绕技术支撑服务、技术项目转化等方面助力企业智能制造水平能力提升;推荐优秀服务产品,助力自贡企业转型发展。
近年来,自贡紧扣发展培育新质生产力决策部署,贯彻落实人工智能全省“1号创新工程”要求,坚持小切口、快节奏前瞻布局人工智能未来产业,超常规推进“一区三园”产业体系建设,引进落地一批龙头企业,全力推动“6+1”产业初步起势见效。2024年,自贡已获批四川省首批人工智能创新发展试验区,取得了显著的成效。
(封面新闻)