数据结构与算法（17）：simhash

发表于 2017-08-01 | 分类于数据结构与算法

一、引入

随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意义的，只会造成存储和计算资源的浪费；同时，展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括：

阅读全文 »

数据结构与算法（16）：一致性哈希

发表于 2017-07-30 | 分类于数据结构与算法

一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（DHT）实现算法，设计目标是为了解决因特网中的热点(Hot spot)问题，初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希（DHT）可以在P2P环境中真正得到应用。

阅读全文 »

数据结构与算法（15）：布隆过滤器

发表于 2017-07-29 | 分类于数据结构与算法

一、引入

什么情况下需要布隆过滤器？我们先来看几个比较常见的例子：

阅读全文 »

数据结构与算法（14）：最短路算法

发表于 2017-07-28 | 分类于数据结构与算法

最短路径问题是图论研究中的一个经典算法问题，旨在寻找图（由结点和路径组成的）中两结点之间的最短路径。算法具体的形式包括：

阅读全文 »

机器学习算法系列（32）：MapReduce执行流程详解

发表于 2017-07-27 | 分类于机器学习

一、简述

MapReduce最早是由Google提出的分布式数据处理模型，随后受到了业内的广泛关注，并被大量应用到各种商业场景中。比如：

阅读全文 »

数据结构与算法（13）：深度优先搜索和广度优先搜索

发表于 2017-07-27 | 分类于数据结构与算法

BFS和DFS是两种十分重要的搜索算法，BFS适合查找最优解，DFS适合查找是否存在解(或者说能找到任意一个可行解)。用这两种算法即可以解决大部分树和图的问题。

阅读全文 »

机器学习算法系列（31）：在线最优化求解（online Optimization）

发表于 2017-07-26 | 分类于机器学习

转载自冯扬《在线最优化求解》

最优化求解问题可能是我们在工作中遇到的最多的一类问题了：从已有的数据中提炼出最适合的模型参数，从而对未知的数据进行预测。当我们面对高维高数据量的场景时，常见的批量处理的方式已经显得力不从心，需要有在线处理的方法来解决此类问题。本文以模型的稀疏性作为主线，逐一介绍几个在线最优化求解算法，并进行推导，力求讲清楚算法的来龙去脉，以及不同算法之间的区别和联系，达到融会贯通。在各个算法原理介绍之后，都给出该算法的工程实现伪代码，可以用于实际工作的参考。

阅读全文 »

数据结构与算法（12）：排序

发表于 2017-07-26 | 分类于数据结构与算法

经典排序算法在面试中占有很大的比重，也是基础，在这里整理并用Java实现了几大经典排序算法，包括冒泡排序、插入排序、选择排序、希尔排序、归并排序、快速排序、堆排序、同排序。我们默认将一个无序数列排序成由小到大。

阅读全文 »

数据结构与算法（11）：哈希表

发表于 2017-07-25 | 分类于数据结构与算法

一、哈希表的基本概念

哈希表（Hash Table）是一种特殊的数据结构，它最大的特点就是可以快速实现查找、插入和删除。因为它独有的特点，Hash表经常被用来解决大数据问题，也因此被广大的程序员所青睐。

阅读全文 »

数据结构与算法（10）：查找

发表于 2017-07-24 | 分类于数据结构与算法

一、基本概念

查找（Search）就是根据给定的某个值，在查找表中确定一个其关键字等于给定值的数据元素（或记录）。在计算机应用中，查找是常用的基本运算，例如编译程序中符号表的查找。先说明几个概念：

阅读全文 »

Free Will

人类被赋予了一种工作，那就是精神的成长