18202186162
17661491216
一、基于语义词典与知识库的方法
通过结构化语义网络计算概念关联性,适合专业领域
树形结构距离法
原理:在WordNet等分类体系中,以概念节点间最短路径长度衡量相似度
公式:Sim(W1,W2) = e^(-k·Dis),Dis为树中节点距离,k为调节参数(通常0.1-0.3)
示例:boy与girl路径长度为4,boy与teacher为6,故前者更相似
义原分析法(HowNet)
原理:分解词语为原子义原(语义单元),加权计算四类特征相似度
公式:
Sim = β1·Sim1(第一义原) + β2·Sim2(其他义原) + β3·Sim3(关系义原) + β4·Sim4(符号义原)
权重要求:β1+β2+β3+β4=1,且β1≥0.5(第一义原主导)1。
二、基于统计语料库的方法
利用大规模文本分布特征,无需预定义知识库
上下文向量模型
步骤:
① 构建词-上下文矩阵(如TF-IDF);
② 计算向量相似度(余弦/欧氏距离)

优化:引入PMI(点互信息)过滤噪声,提升鲁棒性
协同过滤与点击图
实践:通过用户搜索Session中的共现Query或点击Item序列,构建Embedding向量
典型应用:电商搜索中,利用用户行为数据学习商品语义关联
三、深度表示学习模型
神经网络自动学习语义表征,主流技术路线
表示型匹配(DSSM系列)
架构:
输入层:英文用letter-trigram(如good→#go,goo,ood),中文用字向量
表示层:3层全连接网络生成128维语义向量
匹配层:余弦相似度计算cos(Q,D) = (Q·D)/(||Q||·||D||)
变体CDSSM:引入CNN捕捉局部语义,比DSSM提升10%准确率
交互型匹配(BERT等)
革新:预训练模型(如BERT)直接编码句间交互,实现动态语义匹配
优势:解决多义词歧义(例:“苹果”在不同语境指水果或公司)
四、工业实践与融合策略
多算法协同
混合词典规则+深度学习结果,解决长尾Query稀疏问题
示例:阿里搜索综合Word2Vec与SimRank++图算法
实时性优化
局部敏感哈希(LSH)压缩向量,加速亿级数据检索
评估指标
准确性(人工标注相似度VS预测值)、敏感性(抗噪声能力)、扩展性(响应延迟)
🔍 选型建议
graph LR
A[输入需求] –> B{数据规模}
B –>|小型标注数据| C[基于词典/规则]
B –>|海量无标注数据| D[深度模型]
A –> E{实时性要求}
E –>|毫秒级响应| F[表示型模型 DSSM]
E –>|允许百毫秒| G[交互型模型 BERT]
更多技术细节可参考:
语义相似度理论框架
DSSM/CDSSM实现解析
工业级点击图建模
多模态语义融合前沿