从猫和猫咪说起搜「猫咪图片」AI能找出标注着「猫」的图片。写一段产品描述AI能自动归类到「电子产品」而不是「服装」。问AI「怎么养猫」能返回「猫咪喂养指南」的文章。这些事情有个共同点AI得知道「猫」和「猫咪」意思相近甚至是一回事。但AI本质上是个概率模型它不直接理解文字。它眼里所有的文字都是数字。那它怎么知道哪些词意思相近靠的是向量化。向量化到底是什么向量化英文叫 Embedding。名字不用管说清楚是怎么回事。向量就是一串数字。「猫」这个词向量化之后变成这样的一串[0.23, 0.87, -0.12, 0.45, ...] 一共768个数字「猫咪」向量化之后也变成一串数字。因为意思相近这两串数字在整个数组里大部分位置的值都很接近。意思越相近的词它们的向量在数字空间里的距离就越近。把每个词想象成地图上的一个点——意思相近的词位置离得远不相关的词位置离得近。这张图就是那个「意义地图」的可视化「猫」和「猫咪」紧紧挨在一起「狗」离它们也不算远都是宠物但「汽车」就跑到角落去了。这就是向量化干的事——把文字变成坐标让AI能在空间里比较它们的远近。怎么变成向量的大模型在预训练的时候顺便学会了这件事。训练数据里「猫」和「猫咪」经常出现在差不多的上下文里——都跟「宠物」「喂养」「可爱」这些词在一起。模型就会发现这两个词应该离得近一点。经过海量文本的训练模型内部自然形成了一套意义地图——每个词都有自己固定的坐标向量而且意思相近的词坐标也相近。这套坐标不是人设计的是模型自己从数据里悟出来的。有个很出名的例子「国王」的向量 - 「男人」的向量 「女人」的向量 ≈ 「皇后」的向量模型并没有被人告诉过国王和皇后的关系就像男人和女人的关系但它从海量文本里自己学到了。图中四个箭头分别代表国王、男人、女人、皇后的向量方向减去男人的向量再加上女人的向量结果刚好指向皇后——语义关系被编码进了向量里。向量化捕捉的是语义关系不是字面相似度。「猫」和「猫咪」字面差了一个字但语义几乎一样。「猫」和「猫科动物」字面差很多但语义相关。向量数据库是什么向量化解决了怎么把文字变成坐标但还有一个问题这些坐标存哪里怎么快速找到离得最近的坐标这就是向量数据库的用处。普通数据库擅长精确匹配——找标题等于「猫」的文章。向量数据库擅长语义匹配——找意思跟「猫咪喂养」最接近的文章哪怕文章里根本没出现「猫咪」这两个字。具体流程图上画的就是这四步知识库里所有文档先向量化存进向量数据库提问时把问题也向量化然后在向量数据库里找最接近的那几段文档最后送给大模型当参考资料生成答案。这就是RAG检索增强生成的核心原理之前有一篇文章专门讲了什么是RAG有兴趣的小伙伴搜索我的主页查看。向量化能干嘛除了RAG向量化还有很多用得到的地方。语义搜索。搜「怎么换轮胎」能找出「轮胎更换步骤」的文档哪怕字面不完全匹配。内容推荐。看完一篇讲「猫粮测评」的文章推荐系统知道推「猫咪喂养指南」而不是「汽车维修」。去重。两篇文章标题完全不同但内容几乎一样向量化之后能发现它们的向量很接近判断为重复内容。分类。把一段文字向量化跟各个分类的典型向量比一下远近就能自动归类。关注小虾一起成长一起进化