大数据在不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。
大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,掌握大数据算法设计与分析的技术。
【课程目录】
第1章 大数据算法概述
大数据的定义与特点
大数据算法
大数据算法设计与分析
第2章 亚线性算法概述
亚线性算法的定义
水库抽样—空间亚线性算法
平面图直径—时间亚线性计算算法
全0数组判定—时间亚线性判定算法
第3章 亚线性算法例析
数据流中频繁元素
最小生成树
序列有序的判定
第4章 外存算法概述
外存存储结构与外存算法
外存算法示例:外存排序算法
外存数据结构示例:外存查找树
第5章 外存查找结构
B树
KD树
第6章 外存图数据算法
表排序及其应用
时间前向处理方法
缩图法
第7章 基于MapReduce的并行算法设计
MapReduce概述
字数统计
平均数计算
单词共现矩阵的计算
第8章 MapReduce算法例析
连接(Join)算法
图算法
第9章 非MapReduce的并行算法设计
基于迭代处理平台的并行算法
基于图处理平台的并行算法
第10章 众包算法
众包的定义
众包的实例
众包的要素
众包算法例析
相关资源