本网讯(通讯员:张慧丹)为夯实人工智能专业学生理论基础,紧跟大模型与向量数据库产业前沿发展趋势,拓宽学生AI技术研究视野,提升专业知识应用与工程落地能力,2026年6月4日王曙光教授开展题为《从词向量到认知搜索:向量数据库的前世今生》专题学术讲座。

王曙光教授从结构化与非结构化搜索的现实反差切入,以SQL精准查询用户年龄、检索氛围感相册照片两个生活化场景,引出向量数据库诞生的时代背景与核心价值,提出“万物皆向量+高维空间近似搜索=认知搜索”的核心公式,梳理出向量数学原理、嵌入算法、ANN检索、RAG落地、技术展望五大授课脉络。在核心原理讲解环节,结合线性代数基础知识,拆解向量在计算机存储与几何空间中的双重定义,借助BERT词向量t-SNE降维可视化案例,直观展示高维空间天然具备的语义聚类特性。
讲座后半段聚焦工程落地,王曙光立足当前大模型发展痛点,点明LLM天生存在内容幻觉、知识滞后、私有数据不可用两大缺陷,细致拆解RAG检索增强生成全链路流程,将向量数据库比作大模型的外挂海马体,从防幻觉、实时更新、私有化部署三方面阐明RAG落地优势,罗列Chroma、Milvus、Qdrant、pgvector等主流向量库选型标准与适配场景。最后,教授展望行业发展方向,指出稀疏BM25+稠密向量混合检索是当下主流优化方案,存算一体、忆阻器芯片将突破冯・诺依曼架构内存墙瓶颈,成为未来向量检索硬件革新关键。
讲座尾声,王曙光给出轻量化实操学习路线,推荐基于BGE中文嵌入模型、Chroma向量库、LangChain框架搭建个人知识库问答机器人,引导同学们从理论走向实操。整场讲座理论与实例相融、数学与工程并举,有效加深了在场学生对词向量、认知搜索、RAG应用的理解,助力学生建立从底层数学到产业落地的系统化技术思维。
(审核:郑妮 编辑:崔妹)