走进百度山西数据标注基地 看“数据标注师”如何教AI认识世界
2021-12-01
标注基地 山西数据交易平台

3月23日9时30分,香港联交所响起了属于百度的锣声。这是继2005年在纳斯达克上市后,百度回香港的第二次上市。现场,三位AI时代新职业代表敲锣人备受关注,其中一位名叫郭梅,是百度(山西)人工智能基础数据产业基地(下称“百度山西数据标注基地”)的一名“AI数据标注师”。


让我们跟随郭梅的脚步,去位于山西综改示范区科技创新孵化基地4号楼的百度山西数据标注基地看看她工作的地方。


      AI也有老师,数据标注师教它学会感知和思考
郭梅曾在老家山西长治煤矿厂工作,“抬头是山,低头是煤”。如今她是一位新兴职业代表:AI数据标注师。
AI数据标注师的工作就是教会AI认识数据,有了足够多、足够准确的数据,AI才能像人一样去感知、思考和决策,从而更好地为人类服务。特殊时期,百度山西数据标注基地为多个“科技防疫”项目的实施应用提供了支撑。例如完成对戴口罩的人脸图像的标注,让人们在不摘口罩的情况下,也能实现精确体温监测或是通过人脸闸机。
在百度山西数据标注基地一间间的办公室中,每台电脑前都坐着一名AI数据标注师,他们将根据各自领到的任务对图像、语音、视频、文本进行标注。比如,在采集大量的人脸数据后,AI数据标注师会对人像进行标注,提取特征,对人脸的眉毛、眼镜、颧骨等关键点进行精准标注,标注的特征点越多,AI就越能精确地识别。同时,将特征“喂”给人工智能模型,模型总结之前人工标注出的信息进行计算,并找出通用规律,这时,这个人工智能模型就具备了人脑才有的认知和判断能力。
那么,数据安全如何来保障?百度山西数据标注基地相关负责人说:“每位数据标注师在入职前都会签订一份保密协议。在基地,每个房间都有24小时视频监控,上岗之前进行人脸打卡,数据加密,作业期间若涉及数据敏感项目,会要求数据标注师们将手机放在固定的地方,不允许对着屏幕拍摄,而线上的数据标注师则是在处理一些敏感性不高的数据。”
郭梅“再就业”的经历是百度深耕AI的一个典型案例,也是AI赋能新兴产业,带动产业转型的一个生动注脚。目前,百度山西数据标注基地已成为国内人员和产值规模最大的单体数据标注基地,全面覆盖无人驾驶、语音识别、人脸识别、内容审核等30余种数据标注场景。同时,百度还宣布未来5年,将在百度山西数据标注基地培养5万名AI数据标注师,并引入更多AI合作伙伴。
  

企业进入基地不再单打独斗,有了依托
AI数据标注师技术门槛不高,经过一定的培训就能上岗,招工人群范围广泛。在基地,大专以上学历的数据标注师占比超过80%,一些中专或高中学历的人员也能胜任这项工作。“这个行业看上去门槛低,但你真正进入以后,能‘活下来’还是非常不容易的。你没有稳定的甲方,标注能力不够专业,也没有规模,那么在市场竞争中就处于弱势地位,接不到单子,养活不了人。”谈到入驻百度山西数据标注基地前后的变化,山西麟诺网络科技有限公司负责人李应维最大的感受是,“原来是单打独斗,很难;进入基地之后,就有了依托,得到百度的大力扶持,企业成长很快”。

山西麟诺网络科技有限公司是2018年下半年首批入驻百度山西数据标注基地的代理商之一。公司负责人李应维从2017年底涉足数据标注行业,并接触到百度众测平台。2018年入驻基地一期后,李应维开始建立公司自有的数据标注团队,目前人员规模已近200人。

针对入驻代理商,百度山西数据标注基地采用统一标准的管理模式,并建立了完备的企业扶植政策,包括项目引流、企业运营成本减负、企业管理成本减负、企业品牌运营支持等多个方面,帮助企业快速实现规模扩展、业务能力提升、管理效率优化等。
目前,百度山西数据标注基地一期、二期入驻企业达35家,三期产业区建设与新代理商入驻招标工作正在紧锣密鼓地进行中。在基地的全方位培养及政策支持下,入驻企业在人员规模、业务能力、管理水平等各方面获得长足发展。当前,基地总人员规模近3000人,累计实现产值超2亿元。此外,截至2020年年底,基地已有多家入驻企业申请并被认定为全国高新技术企业。
2017年7月11日,山西省政府与百度在线网络技术(北京)有限公司签署了《战略合作框架协议》。根据协议内容,双方将依托山西现有政策资源和产业基础,充分发挥百度公司人工智能、大数据、云计算等技术优势,开展全方位、深层次战略合作,为山西经济发展、产业升级、城市管理和科技创新提供支撑。百度山西数据标注基地是落实这一战略合作协议的重要载体,是山西综改示范区打造新一代信息产业集群的重点项目,是未来百度助力山西实现数字经济转型的重要依托。
伴随着越来越多人工智能场景的应用,获取海量结构化数据已成为人工智能企业实现技术突破的关键。据测算,作为人工智能产业的基础产业和重要环节,数据标注的市场规模到2022年将达到300亿元。


打造省内首个数据交易平台释放数据要素价值
以数据标注产业为切入口,百度山西数据标注基地又着力构建起集数据采集、清洗、标注、交易、应用为一体的基础数据服务体系,加快大数据产业发展。
2020年7月,山西综改示范区与百度智能云数据众包合作共建的“山西数据交易平台”(以下简称“平台”)上线,成为山西省内首个数据交易平台。“数据交易平台以AI数据为特色,以建设成为全国最大AI数据交易中心为目标,以构建数据融合生态,培育山西数据要素流通市场为使命,面向山西乃至全国的数据供求方,提供集数据采集、清洗、标注、交易、应用等为一体的全栈式数据服务。”据百度山西数据标注基地相关负责人介绍,依托百度AI、大数据、安全计算等产品技术与生态资源能力,平台已在交易服务、功能创新、资源建设、交易合规方面形成四大核心能力。
经过半年多的试运营,目前平台已引入数据服务供应商超1100家;经过数据脱敏,上线AI数据集169个,接入API数据接口147个,总数据量超1.3亿条,涵盖语音识别、文字识别、人脸识别、自动驾驶、自然语言处理等多种数据场景;平台自上线以来,累计完成交易额超5000万元。
在交易服务方面,平台构建了涵盖业务咨询、方案定制、资源协调、项目管控、售后服务等全流程的服务能力;在功能创新方面,平台内嵌AI数据可视化管理、智能驾驶标注数据自动清洗等特色功能;在资源建设方面,平台引入多行业、多场景AI数据资源,并整合政务、企业、社会等多类型数据资源;在交易合规方面,平台结合现行法律法规及行业规范,制订实施数据安全等级管理、交易流程安全管理等策略,保障数据交易安全合规。
这是山西综改示范区与百度的再度合作,依托基地的数据服务能力支撑,平台进一步整合数据服务产业资源,引入数据生态企业,打通数据服务产业链,盘活上下游,促进山西综改示范区形成大数据产业新生态,助力山西数字经济转型与产业智能化发展。(来源:张娜  山西综改示范区)