数据治理“嘉”速度 重塑AI竞争力
欢迎订阅《信阳手机报》移动用户发送短信 XYSJB 到10658300即可开通 3元/月 不收GPRS流量费
为抢抓AI发展机遇,嘉兴市烟草专卖局通过“大数据巡检”和“小样本生成路径”,在质量管控上做乘法,在样本建设上做积分,破解数据治理 “质”“量”困境,构建了一套高水平数据治理竞争力体系,全面赋能AI大模型场景应用。
图为该局在浙烟大数据研究院作经验分享
打造“大数据巡检助手” 护卫高质量数据资源
“训练数据怎么又对不上?”“数据是不是很久没更新了?”“训练数据资源情况怎么样?”在该局信息中心,关于数据问题的咨询每日不停,来自业务部门各式各样的数据质疑和领导的进度关切,常常让部门数据管理员杨景亮手忙脚乱。
这些临时突发的数据问题通常有一个共同点,即事后才能发现。而当数据问题到了消费端才被发现反馈,领导决策无法穿透数据底层,数据治理工作就变得迫在眉睫。
为破解难题,杨景亮在全市系统数据服务团队中发出一份“数据治理工单”,成功募集到5名小组成员,数据小队以数据梳理作为起点,历时一周完成了对海量数据库的筛选清洗、聚类分析,最终发现大大小小的问题成因可以归因一个“质”字,即数据质量参差不齐、数据标注标准不一。
“我们在梳理排查中发现,某零售户经营地址异常持续3天,原因是因为两大业务系统之间的数据同步异常,但未能在第一时间定位与处理,这就是数据质量的参差不齐。而数据标注方面,比如依靠专家经验判定的零售户异常流水的标准并不唯一,导致技术人员的标注难以下手。”杨景亮举了具体事例分别对两个问题进行了解释说明。
找出问题成因,数据小队在短暂的庆祝后立马投入“破题”工作。在数据提质方面,他们围绕“盘点、质量、集成”建立起工业化数据治理流程,过滤贴源数据层中低质量样本;在数据标注方面,构建了“业务专家+AI标注师”双审机制,领域专家参与的标注范式将为AI模型提供准确的训练指导。
通过抽丝剥茧层层解码,组员们建立了包括数据存储、I/O性能、异常资源等在内的六大数据治理核心指标体系,最终打造了“数据资源巡检助手”,借助“瑶光”AI大模型能力,生成数据资源全面洞察报告。
“一方面,‘小助手’可以支撑技术人员快速甄别重复数据资源、准确定位异常属性值,”信息中心负责人孙恒说道,“另一方面也将看不见摸不着的数据资源转化为可量化可操作的分析报告,有助于决策层直接参与到数据治理工作之中。”
探索“小样本生成”最短路径 释放"AI+场景"价值
破解了数据“质”的“成长烦恼”以后,数据“量”的问题接踵而来,即可用样本规模不足、场景泛化能力不足。
今年年初,该局在研发一款“AI大模型智能案件分析辅助工具”中发现,样本库样本量缺失率达60%,且呈现出显著的结构性失衡,92.48%的案件高度集中在7类典型案由中。样本规模问题直接影响到AI模型在核心业务场景的应用成效。为此,信息条线分管领导高度重视,第一时间成立市县联合攻坚小组。
在数据分析中他们发现,当前全省涉烟案件样本存在高集中度的特点,由于缺乏长尾场景的数据支撑,会导致模型在非法加热器监管、跨境物流涉烟等新兴领域的泛化能力受限,严重制约辅助案件办理模型的应用效果。
“为此,我们探索了基于生成对抗网络(GAN)的小样本生成路径,通过扩大样本总量、拓展样本类型,构建更加具备结构完整性的训练数据集。”技术骨干贾文涛介绍道。
图为联合攻坚小组在集中讨论课题内容
通过构建生成器与判别器的动态博弈模型,他们将初始样本从4701例扩充至14103例,案件类型覆盖率从39.4%提升至63%。特别长尾场景覆盖方面,例如案件的样本生成,通过特征空间插值技术,实现了违法模式的全维度模拟,成功解决了“AI大模型智能案件分析辅助工具”的样本难题。
不仅如此,通过将不同来源的案件数据加以混合、调试配比构建起更加广泛全面的案件数据库,同时,整合行业内外法律法规、专卖案件判例及相关司法解释形成法律知识库,他们自主训练了一款“烟法宝”AI大模型,更加贴合行业专卖领域的深度应用。
“‘烟法宝’大模型能够实现办案人员、案审人员、法规人员多位一体的全流程严格规范执法,同时方便专卖新人迅速上手,成为专卖队伍“新老交替”的得力助手!”该项目负责人陈煜自豪道。
高水平数据治理体系是一条围绕AI大模型的“护城河”,下一步,嘉兴市烟草专卖局将继续保持“数据工匠”精神,围绕强化数据治理,积极赋能多场景、多领域的AI应用。(杨景亮、陈锡娇)

标签:
- 上一篇:KAWAI数码钢琴与隆笛电吹管惊艳亮相,AI赋能下的老年音乐教育大有可为
- 下一篇:没有了
报晓风
信阳日报微信
掌上信阳微信
信阳日报新浪微博
信阳日报腾讯微博
请您文明上网、理性发言,并遵守相关规定。网友评论
网友评论仅供其表达个人看法,并不表明信阳新闻网立场。