【论文阅读】XuanYuan: An AI-Native Database

XuanYuan: An AI-Native Database

这篇文章主要是讨论了AI4DB 和 DB4AI 集成的数据库架构,以此提出了AI原生的数据库,架构如下:

Untitled

而具体发展阶段来说,AI原生数据库主要由五个阶段组成

Untitled

  1. 第一阶段,AI建议型数据库:像是有一个外挂方式存在的chat/advisor,能够提供离线优化的建议,但是可能还得人工去action
  2. 第二阶段,AI辅助型数据库:将 AI 引擎集成到数据库内核中,作为数据库的一个环节/组件,比如在查询过程中加入 AI支持的查询调优过程。
  3. 第三阶段,AI增强型数据库:AI 增强型数据库不仅用人工智能技术优化数据库设计,而且提供基于数据库内置的 AI 原生服务.
    1. 这里许多数据库组件可以利用人工智能算法进行增强,比如配置优化、查询优化、成本估计、索引等
    2. 数据库内置的AI服务:1. 扩展SQL来支持AI;2. 利用数据库优化技术来加速 AI 算法,例如索引、增量计算和共享计算,将数据库中支持人工智能功能的技术分为 5 个层次
      1. AI 模型作为用户定义函数(UDF):在数据库中嵌入 AI 框架(如 MADlib,TensorFlow,Scikit-learn),提供用户定义函数,,用户可以按照 SQL 原有的语法或内嵌其他语言自定义 AI 模型,从数据库调用这些实例来使用 AI 模型
      2. AI 模型作为视图:将训练出来的模型物化下来(materialized view),之后,其他用户就可以直接使用这个模型.
      3. 模型无关 AI:通过自动根据问题选择算法,数据库可以自动推荐最适合用户场景的算法
      4. 问题无关 AI:很多时候用户甚至不能解释清楚需要解决的问题,例如具体的分类标准.在给定数据库的情况下,全自动 AI 能自动发现哪些问题可以由人工智能算法来解决,并推荐合适的人工智能算法;
      5. 全自动 AI:该系统最终可以自动发现人工智能的应用机会,包括自动发现问题,选择合适的 AI 模型、算法、数据和训练方法等.
    3. 所以需要设计一个混合型引擎同时支持人工智能和数据库服务
  4. 第四阶段,AI自组装数据库:不仅自动地组装数据库组件来生成最适合给定场景的数据库,而且还将不同任务调度到合适的硬件上.
    1. 自组装:执行路径可以看成是自然语言序列(NLS),比如〈pg_parser,optimizer_RBO,row-based executor,accelerator〉,使用强化学习RL,它以整个路径序列为一个 epoch,以一个动作为一个 episode.在每个 eposide,强化学习选择执行查询的下一个组件(action),可以选DDQN、GAN算法
    2. 异构计算架构:充分利用 x86、ARM、GPU、NPU、加速器等多种计算能力,比如如何从关系模型转化为其他模型(tensor模型),还有就是NVM和RDMA。
  5. 第五阶段:AI自设计数据库,数据库完全由人工智能设计,包括设计、编码、评估、监控和维护等各个阶段

挑战和机遇:

  1. Stonebraker 认为,由于应用程序的多样性(例如 OLTP,OLAP,stream,graph)和硬件的多样性(例如 CPU,ARM,GPU,FPGA,NVM),一种数据库并不能适合所有的情况(one-size-doesn’t-fit-all).

    通过构建一个智能的数据库栈可能能够适应所有的情况(one-stack-fits-all).

    “One-stack-fits-all”的挑战:

    (1) 每个组件应该提供标准接口,以便不同的组件可以集成在一起;
    (2) 每个组件应该有不同的变体或实现,例如不同的索引类型、不同的优化器;
    (3) 它需要一个基于学习的组件来组装不同的组件;
    (4) 在部署数据库之前,需要对所装配的数据库进行评估和验证;
    (5) 支持异构的计算框架.不同组件可能需要运行在不同硬件上,例如,学习优化器应该运行在 AI 芯片上,传统的基于成本的优化器应该运行在通用芯片上,它需要有效的硬件调度算法来安排不同的任务;
    (6) 传统芯片设计有 EDA 等软件辅助,但是软件设计并没有类似的工具来评价设计效果,因此需要设计类似软件来对数据库的设计给出评估.

  2. OLAP 2.0

    图数据、时间序列数据、空间数据、文本数据、图像数据,需要新的数据分析技术来分析这些多模型数据,集成 AI和 DB技术来提供新的数据分析功能是很挑战性的.我们认为,多模型数据的 DB 和 AI 混合在线分析处理应该是下一代 OLAP,即OLAP 2.0.

    挑战:首先,不同的数据类型使用不同的模型,如关系模型、图模型、KV 模型、张量模型,需要一个新的模型来支持多模数据分析;其次,OLAP 2.0 查询可能涉及数据库和人工智能操作,它需要设计新的模型来优化这些跨硬件的异构操作

  3. OLTP 2.0

    传统OLTP不能充分利用新硬件,如 AI 芯片、RDMA 和NVM.实际上,我们可以利用新的硬件来改进事务处理

    1. 使用 NVM 替换 RAM,并使用 NVM 上的记录级存储替换页级存储
    2. 利用RDMA来改进数据库中的数据传输.我们可以利用智能以太网卡的可编程特性,实现对RDMA 的过滤,避免在 RAM 和 CPU 中进行不必要的处理;
    3. 设计专门为数据库定义的硬件芯片也是很有前景

    挑战:

    1. 充分利用新硬件设计新一代数据库需要集成多种数据模型和调度策略
    2. 评估和验证新硬件是否能使数据库体系结构受益也是一件很难的事情
  4. AI4DB

    挑战:

    1. 针对数据库调优的有效样本数据很难获得
    2. ,很难针对不同的场景自动选择合适的模型算法,还要平衡速度和质量
    3. 在调优中,如果模型不收敛,我们就不能利用模型对参数进行建议;
    4. 适应性:模型应该适应不同的场景.例如,如果硬件环境发生变化,模型可以适应新的硬件;
    5. 泛化能力:模型应该适应不同的设置.例如,如果工作负载发生了更改,那么模型应该支持新的工作负载.如果更新了数据,模型需要有能力适应新的数据.
  5. DB4AI

    1. 使用索引技术加速人工智能算法,利用数据库技术来提高人工智能算法的性能,可以对样本和特征建立索引,利用索引来进行高效节能的训练
    2. AI 原生数据库要有能力理解需求、发现模型.普通用户可能只知道他们的需求,例如,使用一个分类算法来解决一个问题,但不知道应该使用哪个 AI 算法.因此,自动发现人工智能算法非常重要
  6. 边缘计算数据库

    1. 需要在小型设备中嵌入微型数据库
    2. 挑战:安全性、实时数据处理能力、数据迁移、实时控制是 5G,IOT 的重要需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/764575.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MQ运行时遇到的问题

遇到的问题描述:我在绑定通道的时候发现了通道绑定失败, 原因: 在代码中我第一次创建交换机的时候类型的默认没有修改成topic类型的,导致后面的代码再去进行注册的时候并没有实现那个类型 解决: 更改代码&#xff0…

对不起,AI大模型不是风口

“我们正处在全新起点,这是一个以大模型为核心的人工智能新时代,大模型改变了人工智能,大模型即将改变世界。”——5月26日,百度创始人、董事长兼CEO李彦宏先生在2023中关村论坛发表了《大模型改变世界》演讲。 李彦宏指出&#…

S7---代码编译和固件下载

目录 1.代码下载 2. 工具安装 3.环境变量 4.驱动安装 5.代码编译 6.固件下载 S7和S7 Pro Gen 1音频平台 S7 Gen 1音频平台基于QCC722x蓝牙音频SoC,针对耳塞和其他便携式和可穿戴应用。 S7 Pro Gen 1音频平台基于QCC722x蓝牙音频SoC和QCP7321微电源Wi-Fi收发器…

Nacos2.3.x动态刷新不生效

1.日志分析 Ignore the empty nacos configuration and get it based on dataId[null.yaml] & group[DEFAULT_GROUP] Ignore the empty nacos configuration and get it based on dataId[null-local.yaml] & group[DEFAULT_GROUP] 从日志文件分析中可以得到 dataId[n…

TypeScript 中 const enum 和 enum 的核心区别在哪?日常开发应该使用哪个?

编译结果 enum 会生成一个对象,引用的地方保持对其引用 const enum 会擦除 enum 定义的代码,引用的地方会生成 inline code 使用enum: 使用const enum: PS:编译选项 preserveConstEnums 可以使 const enum 不去擦除 …

深度学习之半监督学习:一文梳理目标检测中的半监督学习策略

什么是半监督目标检测? 传统机器学习根据训练数据集中的标注情况,有着不同的场景,主要包括:监督学习、弱监督学习、弱半监督学习、半监督学习。由于目标检测任务的特殊性,在介绍半监督目标检测方法之前,我…

镜像私服Harbor 2.0安装-探索工厂模式:如何优化Harbor项目管理与API集成

文章目录 一、docker-compose1. 下载 Docker Compose:2.添加执行权限:3.验证安装 二、安装harbor 2.01.下载harbor离线包2. 根据需求配置 Harbor3.给harbor创建SSL证书4.预编译harbor5. 安装并启动 Harbor (必须到你安装的目录) 三、登录harbor的web页面…

哈尔滨如何选择合适的等保测评机构?

选择合适的等保测评机构确实需要细致考虑,您提到的八个方面已经非常全面,涵盖了资质、专业能力、服务质量和合规性等多个关键点。为了进一步确保所选机构的可靠性,还可以考虑以下几点: 1.技术创新与工具:了解测评机构是…

鸿蒙生态应用开发白皮书V3.0

来源:华为: 近期历史回顾:

红酒SPA:享受放松与奢华的很好结合

在繁忙的都市生活中,人们总是渴望找到一片宁静的天地,让疲惫的身心得到很好的放松。而红酒SPA,作为一种不同的放松方式,将红酒的浪漫与SPA的舒适整合,为现代人带来了一场奢华享受。 一、红酒的浪漫与SPA的舒适 红酒&a…

北京网站建设怎么开始做

北京作为中国的首都,拥有众多的企业和机构,网站建设不仅是一种宣传和推广的手段,更是企业发展的必备工具。但是对于很多企业来说,网站建设是一个相对陌生的领域,不知道从哪里开始。今天我们就来谈一谈北京网站建设的步…

算法-位图与底层运算逻辑

文章目录 1. 位图的理论基础2. 完整版位图实现3. 底层的运算逻辑-位运算 1. 位图的理论基础 首先我们要理解什么是位图, 位图的一些作用是什么 位图法就是bitmap的缩写。所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又…

【HDC.2024】探索无限可能:华为云区块链+X,创新融合新篇章

6月23日,华为开发者大会2024(HDC 2024)期间, “「区块链X」多元行业场景下的创新应用”分论坛在东莞松山湖举行,区块链技术再次成为焦点。本次论坛以"区块链X"为主题,集结了行业专家、技术领袖、…

fyne的MultiLineEntry设置大小

MultiLineEntry设置大小 在另一篇文章讲过,放入border布局中,可以最大化MultiLineEntry。 这里再介绍另一种方法:SetMinRowsVisible() func (e *Entry) SetMinRowsVisible(count int) {e.multiLineRows counte.Refresh() }SetMinRowsVisible强制mult…

Typora(跨平台 Markdown 编辑器 )正版值得购买吗

Typora 是一款桌面 Markdown 编辑器,作为国人开发的优秀软件,一直深受用户的喜爱。 实时预览格式 Typora 是一款适配 Windows / macOS / Linux 平台的 Markdown 编辑器,编辑实时预览标记格式,所见即所得,轻巧而强大…

Linux kernel 与 设备树

Linux kernel 与 设备树 1 介绍1.1 概述1.2 发展历程1.3 各版本发布时间及特色1.4 Linux 单内核1.5 Linux 内核网址1.6 NXP 官方镜像与 野火 鲁班猫镜像的区别 2 Linux 内核组成2.1 进程管理2.2 内存管理2.3 文件系统2.4 设备管理2.5 网络功能 3 Linux 内核编译3.1 编译 Kernel…

llm学习-2(使用embedding和数据处理)

首先可以简单了解一下向量数据库相关知识: 向量数据库相关知识(搬运学习,建议还是看原文,这个只是我自己的学习记录)-CSDN博客 补充: 使用embedding API 文心千帆API Embedding-V1是基于百度文心大模型…

【STM32】GPIO复用和映射

1.什么叫管脚复用 STM32F4有很多的内置外设,这些外设的外部引脚都是与GPIO复用的。也就是说,一个GPIO如果可以复用为内置外设的功能引脚,那么当这个GPIO作为内置外设使用的时候,就叫做复用。 STM32F4系列微控制器IO引脚通过一个…

我使用 GPT-4o 帮我挑西瓜

在 5 月 15 日,OpenAI 旗下的大模型 GPT-4o 已经发布,那时网络上已经传开, 但很多小伙伴始终没有看到 GPT-4o 的体验选项。 在周五的时候,我组建的 ChatGPT 交流群的伙伴已经发现了 GPT-4o 这个选项了,是在没有充值升…

仓库管理系统25--数据导出

原创不易&#xff0c;打字不易&#xff0c;截图不易&#xff0c;多多点赞&#xff0c;送人玫瑰&#xff0c;留有余香&#xff0c;财务自由明日实现 1、添加用户控件 <UserControl x:Class"West.StoreMgr.View.DataExportView"xmlns"http://schemas.microsof…