综合编程 2018-06-21

python实现余弦相似度文本比较

向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性……
综合技术 2018-06-19

文本嵌入的经典模型与最新进展

雷锋网 (公众号:雷锋网) AI 科技评论按:这篇文章来自自然语言处理以及机器学习专家、Huggingface 的技术负责人 Thomas Wolf,介绍了文本嵌入的重点知识和最新趋势……
存储架构 2018-06-12

列式数据库和向量化

要点列式数据库有助于减少联机分析处理(OLAP)的负载,因为查询会涉及到列的一个子集,但这些列都有大量的行数。 列式存储格式使我们可以采用一些基于每列的轻量级压……
存储架构 2018-06-09

分布式系统技术系列–时钟同步

1、时钟同步的意义 我们通常所说的时间是物理时间,在计算机系统中,时间更多的应用场景是确认两个事件发生的先后顺利。在分布式系统中,两台计算机各自计算自己的时间……
综合技术 2018-06-07

SVM 的核函数选择和调参

本文结构:什么是核函数 都有哪些 & 如何选择 调参1. 什么是核函数 核函数形式 K(x, y) = , 其中 x, y 为 n 维,f 为 n 维到 m 维的映射, 表示内积。 在用SVM……
综合技术 2018-06-06

机器学习06:支持向量机3

前面两篇文章介绍了支持向量机 SVM 的基本原理,并利用 Python 实践了分割超平面的求解过程。 本篇文章将介绍 SVM 如何对非线性可分的数据进行分类。 基本原理 SVM……
综合技术 2018-06-04

相似度计算之minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相同元素的个数,来表示集合的相似度;这一步也可以……
综合技术 2018-06-04

Three.js粒子特效,shader渲染初探

关于Three.js,网上有不多不少的零碎教程,有些过于初级,有些云里雾里,而Three.js官网上的示例逼格之高又令人望而却步,这些对于没学过计算机图形学的童鞋来说,就像……
综合编程 2018-05-30

相似度计算之杰卡德相似度

Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。 杰卡德相似……