为什么AI能知道“猫“和“猫咪“是一回事？聊聊向量化

发布时间：2026/7/3 4:17:22

从猫和猫咪说起搜「猫咪图片」AI能找出标注着「猫」的图片。写一段产品描述AI能自动归类到「电子产品」而不是「服装」。问AI「怎么养猫」能返回「猫咪喂养指南」的文章。这些事情有个共同点AI得知道「猫」和「猫咪」意思相近甚至是一回事。但AI本质上是个概率模型它不直接理解文字。它眼里所有的文字都是数字。那它怎么知道哪些词意思相近靠的是向量化。向量化到底是什么向量化英文叫 Embedding。名字不用管说清楚是怎么回事。向量就是一串数字。「猫」这个词向量化之后变成这样的一串[0.23, 0.87, -0.12, 0.45, ...] 一共768个数字「猫咪」向量化之后也变成一串数字。因为意思相近这两串数字在整个数组里大部分位置的值都很接近。意思越相近的词它们的向量在数字空间里的距离就越近。把每个词想象成地图上的一个点——意思相近的词位置离得远不相关的词位置离得近。这张图就是那个「意义地图」的可视化「猫」和「猫咪」紧紧挨在一起「狗」离它们也不算远都是宠物但「汽车」就跑到角落去了。这就是向量化干的事——把文字变成坐标让AI能在空间里比较它们的远近。怎么变成向量的大模型在预训练的时候顺便学会了这件事。训练数据里「猫」和「猫咪」经常出现在差不多的上下文里——都跟「宠物」「喂养」「可爱」这些词在一起。模型就会发现这两个词应该离得近一点。经过海量文本的训练模型内部自然形成了一套意义地图——每个词都有自己固定的坐标向量而且意思相近的词坐标也相近。这套坐标不是人设计的是模型自己从数据里悟出来的。有个很出名的例子「国王」的向量 - 「男人」的向量「女人」的向量 ≈ 「皇后」的向量模型并没有被人告诉过国王和皇后的关系就像男人和女人的关系但它从海量文本里自己学到了。图中四个箭头分别代表国王、男人、女人、皇后的向量方向减去男人的向量再加上女人的向量结果刚好指向皇后——语义关系被编码进了向量里。向量化捕捉的是语义关系不是字面相似度。「猫」和「猫咪」字面差了一个字但语义几乎一样。「猫」和「猫科动物」字面差很多但语义相关。向量数据库是什么向量化解决了怎么把文字变成坐标但还有一个问题这些坐标存哪里怎么快速找到离得最近的坐标这就是向量数据库的用处。普通数据库擅长精确匹配——找标题等于「猫」的文章。向量数据库擅长语义匹配——找意思跟「猫咪喂养」最接近的文章哪怕文章里根本没出现「猫咪」这两个字。具体流程图上画的就是这四步知识库里所有文档先向量化存进向量数据库提问时把问题也向量化然后在向量数据库里找最接近的那几段文档最后送给大模型当参考资料生成答案。这就是RAG检索增强生成的核心原理之前有一篇文章专门讲了什么是RAG有兴趣的小伙伴搜索我的主页查看。向量化能干嘛除了RAG向量化还有很多用得到的地方。语义搜索。搜「怎么换轮胎」能找出「轮胎更换步骤」的文档哪怕字面不完全匹配。内容推荐。看完一篇讲「猫粮测评」的文章推荐系统知道推「猫咪喂养指南」而不是「汽车维修」。去重。两篇文章标题完全不同但内容几乎一样向量化之后能发现它们的向量很接近判断为重复内容。分类。把一段文字向量化跟各个分类的典型向量比一下远近就能自动归类。关注小虾一起成长一起进化

为什么AI能知道“猫“和“猫咪“是一回事？聊聊向量化

相关新闻

【观止·诗史汇 HarmonyOS 实战系列 12】学习统计与设置闭环：从 DailyStat 到能力图谱和无障碍体验

近期零基础量化，工具重点要跟着阶段变

如何将照片从 iPhone 传输到 TECNO？

用MLflow构建可复现的LLM评测工作流

AI获客增长系统实战：从技术架构到城市合伙人落地——企业增长商学院的中小企业AI培训

泽大专升本设计组：靠谱吗？真实体验揭秘

Python爬虫经典案例第57篇：容器镜像仓库爬取——Docker Hub数据采集实战

2026 AI标书软件观察：神卷标书为什么更适合高频投标团队？

Ubuntu26.04在线安装MySQL

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

如何5分钟快速上手XUnity.AutoTranslator：打破语言障碍的游戏翻译神器终极指南

ppt模板_0140_相见恨晚

工业自动化中的传感器与执行器控制方案解析

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板