05. 向量数据库应该怎么选？Milvus、Pinecone、Elasticsearch 的取舍考虑？

整理向量数据库应该怎么选？Milvus、Pinecone、Elasticsearch 的取舍考虑？的核心概念、工程要点与面试回答。

简单回答

向量数据库的选择主要看数据规模、部署方式（云托管 vs 自建）、是否需要混合检索、以及团队已有的技术栈。Milvus 适合自建且数据量大的场景，支持丰富的索引类型和分布式部署；Pinecone 是全托管云服务，开箱即用但数据出境和成本可能是问题；Elasticsearch 8.x 之后原生支持向量检索，如果团队已经有 ES，加上向量能力做混合检索是最低成本的方案。小规模场景也可以考虑 Chroma、Qdrant 这类轻量方案。

详细解释

先搞清楚需求再选型

很多人一上来就纠结"哪个向量数据库最好"，但这个问题没有脱离场景的标准答案。真正需要先想清楚的是几个关键问题：数据规模有多大？百万级向量和十亿级向量对存储引擎的要求完全不同。是否需要混合检索（向量 + 关键词）？是否需要元数据过滤？部署方式是私有化还是云服务？对延迟和吞吐的要求是什么？团队现有技术栈是什么？

Milvus

Milvus 是目前功能最完善的开源向量数据库之一，由 Zilliz 开发维护。它支持多种索引类型（HNSW、IVF_FLAT、IVF_PQ 等），支持分布式部署，能处理十亿级别的向量。元数据过滤（Scalar Filtering）能力也比较成熟，支持在向量搜索的同时按标签、时间范围等条件过滤。

Milvus 的架构比较重，依赖 etcd、MinIO、Pulsar 等组件，部署和运维成本较高。适合数据规模大、对性能和功能要求高、有运维能力的团队。如果只是做个小项目几万条数据，用 Milvus 就杀鸡用牛刀了。Zilliz 也提供了云托管版本 Zilliz Cloud，可以省掉运维负担。

Pinecone

Pinecone 是全托管的向量数据库云服务。最大的优点是完全不用管运维、扩缩容、索引构建这些事情，API 友好，集成简单。对于小团队快速搭建 RAG 原型来说非常方便。

但 Pinecone 有几个限制：数据必须存在 Pinecone 的云上，对于有数据合规要求（数据不能出境、不能上公有云）的企业场景可能不适用。成本在数据量大的时候会比较高。另外它的自定义能力有限，索引类型、距离函数等选择没有 Milvus 那么多。

Elasticsearch

ES 8.x 之后原生支持了 kNN 向量搜索和 ANN 搜索（基于 HNSW 和量化），这意味着如果团队已经在用 ES 做全文检索，不需要再引入一个新的向量数据库，直接在 ES 上加向量字段就能做混合检索。这对于很多已有 ES 基础设施的团队来说是最低成本的方案。

ES 做向量检索的优势在于：天然支持混合检索（BM25 + kNN），元数据过滤能力很强，生态成熟，运维经验丰富。劣势在于：纯向量检索的性能和专业向量数据库比有差距，尤其在数据规模大、维度高的时候。ES 本身的资源消耗也比较大。

其他选择

Qdrant 是一个用 Rust 写的开源向量数据库，性能好、API 设计清晰，支持丰富的过滤和 payload 存储。单节点性能很强，部署也比 Milvus 轻量得多。适合中等规模、对性能有要求但不想折腾复杂架构的场景。

Chroma 定位是 AI 原生的嵌入式数据库，集成在 Python 进程里，连独立服务都不用起。适合本地开发、小规模 RAG、快速原型。不适合生产环境的大规模使用。

Weaviate 也是一个功能比较全的开源向量数据库，支持混合搜索、多模态、GraphQL API。社区活跃度不错。

pgvector 是 PostgreSQL 的向量搜索扩展。如果团队重度使用 PostgreSQL，用 pgvector 可以在同一个数据库里同时管理结构化数据和向量数据，减少系统复杂度。但它在大规模向量检索性能上和专业向量数据库有差距。

FAISS 严格来说不是数据库，是 Meta 开源的向量检索库，只负责索引和搜索，不管存储、持久化、分布式。适合嵌入到自己的系统中，或者做 benchmark 测试。

关于索引类型的选择

不管用哪个向量数据库，都会面临 ANN 索引类型的选择。HNSW（Hierarchical Navigable Small World）是目前最主流的选择，查询速度快、精度高，但内存占用大（需要把整个索引放在内存中）。IVF（Inverted File Index）系列把向量空间聚类后建倒排索引，内存占用相对小，但精度和速度不如 HNSW。PQ（Product Quantization）是一种向量压缩技术，可以和 IVF 结合使用，大幅减少内存占用，代价是精度下降。

经验法则：如果数据量不大（百万级以下），内存放得下，直接用 HNSW。如果数据量很大（十亿级），可能需要 IVF_PQ 或者 DiskANN 这类支持磁盘索引的方案。

面试时可以这样答

向量数据库选型主要看几个因素：数据规模、部署方式、是否需要混合检索、以及团队已有技术栈。
如果团队已经有 Elasticsearch，最低成本的方案是直接用 ES 8.x 的向量搜索能力做混合检索，不用引入新组件。如果是做快速原型或数据量不大，Chroma 或 Qdrant 这类轻量方案就够了。数据规模大、对性能要求高、有运维能力的场景，Milvus 是比较成熟的选择。不想管运维的可以用 Pinecone 或 Zilliz Cloud 这类托管服务，但要考虑数据合规和成本。
索引类型方面，HNSW 是目前最主流的，查询快精度高但内存占用大，适合数据量在百万级以下的场景。数据量更大的话需要考虑 IVF + PQ 这类压缩方案。
我觉得向量数据库选型不要过度纠结，对 RAG 效果影响更大的是 Embedding 模型的质量和 Chunk 策略，向量库本身只要不成为性能瓶颈就行。

常见追问

HNSW 和 IVF 索引的原理分别是什么？各自的参数怎么调？
向量数据库的元数据过滤是怎么实现的？会影响检索性能吗？
如果数据量从十万级增长到十亿级，你的向量数据库方案怎么演进？

04. Embedding 模型应该怎么选？怎么评估 Embedding 质量？

06. Recall 和 Rerank 的区别是什么？为什么很多系统要分两阶段检索？