当前位置: 仪表板 >> 仪表板发展 >> 挖掘生成式AI的潜力构建强大的数据平台
GenAI依赖于数据成熟度,在这种成熟度中,组织表现出对整合数据(移动和转换数据)和管理其使用的掌握。
自年底以来,生成式AI迅速展示了其价值和潜力,可以帮助各种规模的企业更快地进行创新。通过从提示中生成新媒体,生成式人工智能将成为一种强大的生产力辅助工具,使各种创造性和智力工作的效果成倍增加。根据Gartner的数据,55%的组织计划使用生成式AI,78%的高管认为采用AI的好处大于风险。
人工智能辅助的医学、教育、科学研究、法律等将改变世界。多伦多大学的研究人员使用生成式人工智能来模拟自然界中不存在的蛋白质。同样,制药巨头拜耳现在使用生成式人工智能来加速药物发现过程。教育提供商KhanAcademy开发了一个AI聊天机器人/导师Khanmigo,用于个性化学习。所有行业的例子名单只会继续增长。
生成式AI不仅仅是一种通用的生产力辅助工具,它以搜索引擎的方式显示信息;借助GenAI,组织可以将其独特的专有数据与在广泛的公共数据基础上预先训练的基础模型相结合。通过结合公共和专有数据进行训练,生成式人工智能可能会成为组织内知识最渊博的实体,从而为创新开辟无数机会。
然而,与所有分析一样,生成式人工智能的好坏取决于其数据。为了充分利用人工智能,组织需要掌握其专有数据。这意味着数据运营技术和组织规范的坚实基础,以促进负责任和有效地使用数据。
生成式AI的数据准备情况取决于两个关键要素:
能够以自动化、可靠、经济高效且安全的方式从数据库、应用程序和其他来源移动和集成数据
通过数据治理了解、保护和访问数据
这种数据就绪性长期被忽视,并且历来阻碍了许多利用大数据和数据科学力量的尝试。一项指标表明,多达87%的数据科学项目从未投入生产,这通常是因为数据孤立且不受治理以及数据基础设施不发达。
生成式AI依赖于数据成熟度的基础如果没有数据成熟度,生成式人工智能(或者说任何类型的分析)的原型设计、部署和测试都将变得极其困难。
数据成熟度既有技术因素,也有组织因素。在技术方面,以下功能是必不可少的:
基于云的集中式数据存储库,可作为单一事实来源
一种能够可靠且自动地大规模从源引入数据的工具,其功能包括:
快速、及时的更新
可靠性和从故障中快速恢复的能力
一种支持协作式、版本控制建模和数据转换的工具。
数据治理功能,例如:
能够在敏感数据到达中央存储库之前对其进行阻止和哈希处理
存取控制
能够对数据进行编目
自动用户预配
自动化是高效、可靠和可扩展的数据移动和集成的基本先决条件。
在组织方面,您的团队将需要以下实践和结构:
一个规模化的分析组织,除了核心分析师团队外,您还将领域专家分配给组织内的特定职能部门
定期发布报告,以及组织中访问并定期使用仪表板来支持决策的利益干系人
分析中的产品思维,其中团队构建的报表、仪表板、模型等是根据利益相关者的需求量身定制的
良好的数据可见性,例如对数据资产进行编目
生成式AI的数据平台架构从头开始构建生成式人工智能是一项艰巨的任务,可能耗资数亿美元,相当于数百年。您的组织最有可能使用基础模型或基础模型,即已经在大量公共数据上训练的商用模型。
在初始阶段,此体系结构(请参阅末尾的附录)反映了基本的分析用例,需要数据管道来提取、加载原始数据并将其转换为支持报表、仪表板和其他数据资产的模型。
之后发生的事情是生成式人工智能所独有的。您可以通过两种方式使用数据补充现成的生成式AI模型:
将文本转换为枚举,存储在生成式AI的矢量数据库中,以集成到长期记忆中,从而增强初始训练和独特组织数据的结果。
将大型语言模型与知识图谱相结合,将语义理解显式编码到模型中,而不仅仅是统计词关联。
即使借助越来越多的现成工具使用生成式AI管理数据基础架构,您也可能需要严重依赖工程、数据科学和AI专业知识,以使这些部件能够正常运行,并在架构之上构建可用的应用程序。
只有当组织认识到其专有数据的关键作用时,生成式人工智能的潜力才能得到充分发挥。通过实施先进的数据运营技术来优先掌握数据,并培养负责任的数据使用文化,组织可以释放生成式人工智能的真正力量,确保其在快速发展的技术环境中实现最佳性能和合乎道德的部署。
附录