曲径通幽:向量数据库
引言
向量数据库,顾名思义,它是用来存储向量的数据库。它是一种专门用于存储和管理高维向量数据的数据库,能够高效地进行相似性检索。与传统数据库不同,它侧重于处理复杂、非结构化的数据,如文本、图像、音频等。
事实上向量数据库并不是崭新的领域,在过去,它与近似最近邻搜索(ANNS)算法被广泛应用于推荐系统上,在人脸识别、图像搜寻等领域已经存在有比较长的时间,只是近年来随着LLM
的普及,向量数据库也开始走红。
向量数据库,顾名思义,它是用来存储向量的数据库。它是一种专门用于存储和管理高维向量数据的数据库,能够高效地进行相似性检索。与传统数据库不同,它侧重于处理复杂、非结构化的数据,如文本、图像、音频等。
事实上向量数据库并不是崭新的领域,在过去,它与近似最近邻搜索(ANNS)算法被广泛应用于推荐系统上,在人脸识别、图像搜寻等领域已经存在有比较长的时间,只是近年来随着LLM
的普及,向量数据库也开始走红。
随着AI多模态大模型的迅速迭代,并伴随着技术市场普及推广,越来越多的科技巨头都推出了自家的AI品牌,由最开始OpenAI的ChatGPT的突然出现,到如今深度求索公司的开源大模型DeepSeek的快速崛起,AI产品层出不穷,我们都相信未来的时代必定是AI的时代。笔者可以常在短视频平台上刷到相关的案例:AI+医疗、AI+法律、……,仿佛一切一切只要是有关于人们对于信息提取的工作,我们都可以通过引入AI工具帮助快速且精准地提效。近期,笔者所在的公司也在部署AI平台应用,理所当然地,Dify这一应用走进了我的视野。
Windows产品激活(Windows Product Activation, WPA)是微软在Windows XP中引入的反盗版技术。尽管其设计初衷是保护软件许可,但实现细节曾长期处于保密状态。本文基于2001年发布的《Fully Licensed Paper》,结合技术细节与实例,初步探讨WPA的核心原理,包括安装ID生成、硬件信息哈希、产品密钥验证等关键环节。
在优化任务中,对日志表的配置过程中偶然了解到Oracle的页大小并不是默认的16KiB,Oracle在主存读取中并不是以页(Page)作为单位读取的,因为Oracle数据库并不是像MySQL那样使用了存储引擎,取而代之的是,Oracle是使用了表空间(Tablespace)这一概念,因此抱着查漏补缺的态度下来通过浏览其他博客资料学习进行了研究,以下是它们存储架构的上的对比总结。
在高维向量空间中,施密特正交化(Gram-Schmidt Orthogonalization)是一种将线性无关向量组转化为正交单位向量组的经典方法。它广泛应用于线性代数、机器学习(如PCA降维)、数值分析等领域。本文将深入解析施密特正交化的定义、计算步骤及其应用。