基于AIGC的数据资产盘点研究与实践思考

2023-10-22 18:50:16 字數 1164 閱讀 8447

近年来,随着信息技术的迅猛发展,数据作为新的生产要素在各行各业中扮演着越来越重要的角色。

特别是在银行4.0时代,数据资产已成为银行数字化转型的重要基石。然而,目前商业银行数据资产盘点存在着一些问题,比如人工标注工作量大、难以持续等。

虽然部分银行已经开始研究利用人工智能技术解决这些问题,但人工标注的工作量问题仍然没有完全解决。幸运的是,aigc(人工智能内容生成)技术的兴起给智能标注课题带来了新的方向。

aigc是一种利用人工智能技术生成内容的新型技术,它能够通过对大量的语言数据进行分析、学习和模拟来实现对自然语言的理解和生成。目前,aigc的技术主要分为基于规则和基于机器学习两大类。

基于规则的aigc技术需要编写一系列的规则来实现内容的生成,准确性较高但需要大量的人力和时间。而基于机器学习的aigc技术则通过对大量语言数据进行学习和模拟,实现内容的自然流畅生成,但需要大量的语料和计算资源。

根据商业银行的实际应用场景来考虑,基于规则的aigc技术更适合商业银行开展数据资产智能化盘点。针对这个问题,本文旨在探索基于aigc的数据资产盘点应用,提供一些新的思路。

在研究中,我们设定了一个简化的目标,即利用aigc技术实现5万数据资产数据项集合的fs-ldm十大主题不互斥二分类的智能化标注。为了实现这个目标,我们设计了一个智能标注方案,包括样本标注、模型训练和模型维护三个步骤。

在样本标注中,我们使用聚类的方式对待训练样本进行初步的分词聚类,并结合领域专家的经验生成基于fs-ldm分类体系的数据资产标注专家规则。在模型训练中,我们选择了支持向量机作为**的算法,并使用词袋模型作为文本特征向量提取的方式。

最后,为了解决模型随着数据量增加而不适用的问题,我们引入了经验池的概念,并结合增量学习方式来实现模型的长期维护。通过以上的研究和实践,我们验证了基于aigc技术的数据资产自动标注的可行性,并提出了一种解决训练样本工作量大和模型不可持续问题的智能化数据资产盘点方法。

大数据毕业设计 基于大数据的校园卡数据分析 python

这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是。基于大数据的校园卡数据分析 学长这里给一个题目综合...

固定资产投资数据解读 经济结构调整成亮点

年前三季度国内固定资产投资数据发布,引发广泛关注。虽然整体增速略显下滑,但其中蕴含着诸多经济发展的亮点。本文将深入解读这些数据,投资在实现全年gdp增长目标和促进经济健康发展中的关键角色。前三季度投资数据呈现出三大特点。首先,总体增速有所下滑,但内部结构调整显著。与以往相比,基础设施投资未呈现显著 ...

分析大数据的4个基本特征

大数据的个基本特征是 数据体量巨大 数据类型繁多 价值密度低 处理速度快。具体解释如下 数据体量巨大 大数据通常指的是数据量非常大的数据,可以从tb级别跃升到pb级别。这些数据可以 于各种 包括传感器 社交 企业数据库等等。由于数据量巨大,传统的数据处理方法往往难以应对,需要采用更为高效和强大的数据...