有哪些数据结构与算法是程序员必须要掌握的?——“数据结构与算法”
一:引言
作为IT程序员,学习算法的原因主要有以下几点:
提升问题解决能力:算法可以帮助程序员分析、优化和解决复杂问题。了解算法原理和实现方式将有助于程序员更快地找到合适的解决方案。这对于解决实际工作中的问题是非常有帮助的。提高代码效率:通过学习不同的算法,程序员将更加了解如何有效地设计和优化代码。这有助于提高程序运行速度、减少所需计算资源和降低内存消耗,从而提升整个项目的效率。增强团队协作能力:熟悉常用算法可以帮助程序员更好地阅读、修改和补充同事的代码。这样,团队之间的沟通和协作将更加顺畅。保持竞争力:对于求职者而言,熟悉算法是许多公司评估求职者技能的重要标准。掌握常用算法有助于程序员在面试中取得优势,提升竞争力。适应不断变化的行业:IT行业更新换代非常快,了解和学习新的算法对于程序员在行业中保持领先地位至关重要。持续学习算法有助于保持技能处于行业前沿,使程序员更具适应性。拓展知识领域:学习算法可以增强程序员对于计算机科学、数学和其他领域的理解,这可以为未来的职业发展提供更多可能性。
那么,算法为什么如此重要呢?
算法是计算机科学的基础,同时也是各个领域中解决问题所必需的技术。互联网、金融、医疗等行业离不开算法,所以算法一直被视为计算机科学中最重要的部分。
现代科技中,算法有着广泛的应用。在互联网领域,例如搜索引擎中使用的PageRank算法、电商网站的推荐算法等;在金融领域,算法广泛使用于风险控制和股票交易等;在医疗领域,算法可以用于医学成像和疾病预测等。这些例子表明了算法在各个行业中都有广泛的应用,且对每个行业的发展和进步都有着至关重要的影响。
算法和数据结构的基础知识
算法和数据结构是计算机科学中最基础的知识,它们是实现算法的工具。数据结构是包含一系列数据的集合,同时定义了数据之间的关系,例如如何存储和访问数据,或如何对数据进行比较和排序等。而算法则是一个有序的集合,这个集合包含了一系列操作步骤,通过在数据结构上的相互作用,解决特定的问题。算法和数据结构是计算机科学中构建复杂应用程序的基础部分。
改善效率
从算法的角度来看,重要的问题不是解决问题的正确性,而是解决问题的效率。因此,提高算法的效率对于实际应用非常重要。例如,在搜索引擎中使用PageRank算法可以大大提高搜索结果的质量,甚至成为Google搜索的成功关键之一。在金融领域,更快的算法可以使金融交易更准确、更及时;在医疗领域中,更快的算法可以更快速地诊断疾病,提高医生的工作效率和治疗质量。
解决实际问题
通过算法,无论在哪个行业中,都有可能解决各种实际问题。例如在医学成像领域,使用计算机算法来处理图像可以提高诊断疾病的精确度和速度;在金融领域,算法可以用于股票交易和风险控制;在银行及其他领域,算法可以用于防止zhapian和数据安全。本质上,利用算法可以更快、更智能地解决各种实际问题,提高工作效率和工作质量。
未来的发展
随着计算机科学领域的不断发展,算法的应用也将继续扩展。例如,深度学习将在人工智能领域中得到广泛应用,分布式计算也越来越受到关注,算法将更广泛地用于信息安全等领域。这些发展表明,算法在未来的发展中一直都将是一个研究的重要方向。
算法实际上不能孤立理解。算法必须和数据、产品一起来理解。算法的出现,实际上背后隐藏着人们阅读行为的“数据化”。我们知道,阅读是一种私密的行为,阅读的行为是人们建立精神世界的支柱。那么问题来了,我们使用产品,我们必须上传数据。当每个人的阅读都变为数据,实际上意味着每个人的爱好都能够被迅速的存储(你也可以被理解为监视)。而算法则使得机器能够最有效率的对人们的爱好和行为进行判断和分析。从用户上看,这即是方便,也是隐私的暴露。而对于商业来看,当数据和算法达到一定水平之后,判断人们的爱好和规律,进而制作广告,推出吸引人的媒介产品就成了轻而易举的事情。可以说未来的数据就是最核心,最重要的资源。算法意味着预测,意味着在人们的意识之外,发现他还没有找到的需求。这是很有意思的。它超出了人们的想象,机器比我们更加了解我们自己。从媒介产品角度来说,这非常有意思,传播的生产模式可能改变了,反馈滞后的问题也会解决。而从更长远的角度看,了解阅读数据只是第一步,下一步可能是更加深层次的爱好,甚至是更底层的行为和思考。但从这个方面来,算法不是人工智能,但他意味着人工智能。它是一个关键的入口,从这个地方开始,人们可以借助机器的力量对自己的行为进行矫正,人的感性思维能力和数据得出的科学结论开始融合了,这是人走向人机合一的第一步。但反过来,我们也需要警惕,算法的这种功能是不是掌握在社会的良性力量手里?如果资本或者其他利益集团掌握了算法和数据资源,是否会对社会控制又多一层牢不可破的枷锁,一个反乌托邦的社会可能会到来。不要忘记了算法的迭代。算法的妙处在于它是自我成长的。人的迭代是有限的,因为人的思维模式是固定的,学习能力在成年后随着时间递减。但是算法,就像Alphago的棋术,几年内就涨了几个量级。这是因为随着人们使用,给予越来越多的反馈,算法会越来越精确,发展到人们难以想象的地步,因为算法是机器学习得出的,人们也越来越不知道算法背后究竟是什么东西。可以说,这是其他任何模式都无法做到的。他不知道这背后到底是什么。
所以总的来说一句话,算法是很有意思也很有价值的一个热点。
二:常见算法介绍
排序算法
快速排序算法
快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(nlogn) 次比较。在最坏状况下则需要Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(nlogn) 算法更快,因为它的内部循环(innerloop)可以在大部分的架构上很有效率地被实现出来。
快速排序使用分治法(Divideandconquer)策略来把一个串行(list)分为两个子串行(sub-lists)。
算法步骤:
1. 从数列中挑出一个元素,称为「基准」(pivot),
2. 重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作。
3. 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。
递归的最底部情形,是数列的大小是零或一,也就是永远都已经被排序好了。虽然一直递归下去,但是这个算法总会退出,因为在每次的迭代(iteration)中,它至少会把一个元素摆到它最后的位置去。
//快速排序法 挖坑法
void QuickSort1(int* arr, int begin, int end)
{
if (begin >= end)
return;
int left = begin,right = end;
int key = arr[begin];
while (begin < end)
{
//找小
while (arr[end] >= key && begin < end)
{
--end;
}
//小的放到左边的坑里
arr[begin] = arr[end];
//找大
while (arr[begin] <= key && begin < end)
{
++begin;
}
//大的放到右边的坑里
arr[end] = arr[begin];
}
arr[begin] = key;
int keyi = begin;
//[left,keyi-1]keyi[keyi+1,right]
QuickSort1(arr, left, keyi - 1);
QuickSort1(arr, keyi + 1, right);
}
堆排序算法
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。
堆排序的平均时间复杂度为Ο(nlogn)。
算法步骤:
1. 创建一个堆 H[0..n-1]
2. 把堆首(最大值)和堆尾互换
3. 把堆的尺寸缩小 1,并调用 shift_down(0), 目的是把新的数组顶端数据调整到相应位置
4. 重复步骤 2,直到堆的尺寸为 1
// 堆排序
void adjustdown(int* a, int n, int parent)
{
// 先假设大的那个孩子结点为左孩子结点
int child = parent * 2 + 1;
while (child < size) // 如果child小于此时数组的长度就继续
{
// 第一个判断是防止没有右孩子结点的情况
// 第二个判断是如果右孩子存在并且右孩子结点的数据大于左孩子结点的数据,就child加一指向右孩子结点
if (child + 1 < size && a[child + 1] > a[child]) child++;
// 如果父节点数据小于child结点数据,就交换重整堆
if (a[child] > a[parent])
{
swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else break; // 如果父节点数据大于child结点数据,说明堆已经调整完毕,直接跳出循环不在调整
}
}
void HeapSort(int* a, int n)
{
assert(a);
// 向下调整, 这里是建大堆
for (int i = (n - 2) / 2; i >= 0; i--) adjustdown(a, n, i);
// 排序(建的大堆就是升序)
int end = n - 1;
while (end > 0)
{
swap(&a[end], &a[0]);
adjustdown(a, end, 0);
end--;
}
}
归并排序
归并排序(Mergesort,台湾译作:合并排序)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(DivideandConquer)的一个非常典型的应用。
算法步骤:
1. 申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列
2. 设定两个指针,最初位置分别为两个已经排序序列的起始位置
3. 比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置
4. 重复步骤 3 直到某一指针达到序列尾
5. 将另一序列剩下的所有元素直接复制到合并序列尾
void Merge(int sourceArr[],int tempArr[], int startIndex, int midIndex, int endIndex){
int i = startIndex, j=midIndex+1, k = startIndex;
while(i!=midIndex+1 && j!=endIndex+1) {
if(sourceArr[i] > sourceArr[j])
tempArr[k++] = sourceArr[j++];
else
tempArr[k++] = sourceArr[i++];
}
while(i != midIndex+1)
tempArr[k++] = sourceArr[i++];
while(j != endIndex+1)
tempArr[k++] = sourceArr[j++];
for(i=startIndex; i<=endIndex; i++)
sourceArr[i] = tempArr[i];
}
//内部使用递归
void MergeSort(int sourceArr[], int tempArr[], int startIndex, int endIndex) {
int midIndex;
if(startIndex < endIndex) {
midIndex = startIndex + (endIndex-startIndex) / 2;//避免溢出int
MergeSort(sourceArr, tempArr, startIndex, midIndex);
MergeSort(sourceArr, tempArr, midIndex+1, endIndex);
Merge(sourceArr, tempArr, startIndex, midIndex, endIndex);
}
}
int main(int argc, char * argv[]) {
int a[8] = {50, 10, 20, 30, 70, 40, 80, 60};
int i, b[8];
MergeSort(a, b, 0, 7);
for(i=0; i<8; i++)
printf("%d ", a[i]);
printf("\n");
return 0;
}
二分查找算法
二分查找算法是一种在有序数组中查找某一特定元素的搜索算法。
搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;
如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数组为空,则代表找不到。
这种搜索算法每一次比较都使搜索范围缩小一半。折半搜索每次把搜索区域减少一半,时间复杂度为Ο(logn)。
#include
using namespace std;
int BinarySearch(int arr[], int len, int target) {
int low = 0;
int high = len;
int mid = 0;
while (low <= high) {
mid = (low + high) / 2;
if (target < arr[mid]) high = mid - 1;
else if (target > arr[mid]) low = mid + 1;
else return mid;
}
return -1;
}
int main() {
int array[] = { 7,14,18,21,23,29,31,5,38,42,46,49,52 };
int arrayLen = sizeof(array) / sizeof(array[0]);
int index = BinarySearch(array, arrayLen, 52);
if (index != -1) {
cout << "查找" << array[index] << "成功";
}
else {
cout << "查找失败";
}
return 0;
}
BFPRT(线性查找算法)
BFPRT 算法解决的问题十分经典,即从某 n 个元素的序列中选出第 k 大(第 k 小)的元素,通过巧妙的分析,BFPRT 可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似,当然,为使得算法在最坏情况下,依然能达到 o(n) 的时间复杂度,五位算法作者做了精妙的处理。
算法步骤:
1. 将 n 个元素每 5 个一组,分成 n/5(上界) 组。
2. 取出每一组的中位数,任意排序方法,比如插入排序。
3. 递归的调用 selection 算法查找上一步中所有中位数的中位数,设为 x,偶数个中位数的情况下设定为选取中间小的一个。
4. 用 x 来分割数组,设小于等于 x 的个数为 k,大于 x 的个数即为 n-k。
5. 若 i==k,返回 x;若 ik,在大于 x 的元素中递归查找第 i-k 小的元素。
终止条件:n=1 时,返回的即是 i 小元素。
DFS(深度优先搜索)
深度优先搜索算法(Depth-First-Search),是搜索算法的一种。它沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点 v 的所有边都己被探寻过,搜索将回溯到发现节点 v 的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。DFS 属于盲目搜索。
深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。一般用堆数据结构来辅助实现 DFS 算法。
深度优先遍历图算法步骤:
1. 访问顶点 v;
2. 依次从 v 的未被访问的邻接点出发,对图进行深度优先遍历;直至图中和 v 有路径相通的顶点都被访问;
3. 若此时图中尚有顶点未被访问,则从一个未被访问的顶点出发,重新进行深度优先遍历,直到图中所有顶点均被访问过为止。
上述描述可能比较抽象,举个实例:
DFS 在访问图中某一起始顶点 v 后,由 v 出发,访问它的任一邻接顶点 w1;再从 w1 出发,访问与 w1 邻接但还没有访问过的顶点 w2;然后再从 w2 出发,进行类似的访问,…如此进行下去,直至到达所有的邻接顶点都被访问过的顶点 u 为止。
接着,退回一步,退到前一次刚访问过的顶点,看是否还有其它没有被访问的邻接顶点。如果有,则访问此顶点,之后再从此顶点出发,进行与前述类似的访问;如果没有,就再退回一步进行搜索。重复上述过程,直到连通图中所有顶点都被访问过为止。
BFS(广度优先搜索)
广度优先搜索算法(Breadth-First-Search),是一种图形搜索算法。简单的说,BFS 是从根节点开始,沿着树 (图) 的宽度遍历树 (图) 的节点。如果所有节点均被访问,则算法中止。BFS 同样属于盲目搜索。一般用队列数据结构来辅助实现 BFS 算法。
算法步骤:
1. 首先将根节点放入队列中。
2. 从队列中取出第一个节点,并检验它是否为目标。
如果找到目标,则结束搜寻并回传结果。
否则将它所有尚未检验过的直接子节点加入队列中。
3. 若队列为空,表示整张图都检查过了——亦即图中没有欲搜寻的目标。结束搜寻并回传「找不到目标」。
4. 重复步骤 2。
Dijkstra算法
戴克斯特拉算法(Dijkstra』salgorithm)是由荷兰计算机科学家艾兹赫尔·戴克斯特拉提出。迪科斯彻算法使用了广度优先搜索解决非负权有向图的单源最短路径问题,算法最终得到一个最短路径树。该算法常用于路由算法或者作为其他图算法的一个子模块。
该算法的输入包含了一个有权重的有向图 G,以及 G 中的一个来源顶点 S。我们以 V 表示 G 中所有顶点的集合。每一个图中的边,都是两个顶点所形成的有序元素对。(u,v) 表示从顶点 u 到 v 有路径相连。我们以 E 表示 G 中所有边的集合,而边的权重则由权重函数 w:E→[0,∞] 定义。因此,w(u,v) 就是从顶点 u 到顶点 v 的非负权重(weight)。边的权重可以想像成两个顶点之间的距离。任两点间路径的权重,就是该路径上所有边的权重总和。已知有 V 中有顶点 s 及 t,Dijkstra 算法可以找到 s 到 t 的最低权重路径 (例如,最短路径)。这个算法也可以在一个图中,找到从一个顶点 s 到任何其他顶点的最短路径。对于不含负权的有向图,Dijkstra 算法是目前已知的最快的单源最短路径算法。
算法步骤:
1. 初始时令 S={V0},T={其余顶点},T 中顶点对应的距离值
若存在,d(V0,Vi) 为弧上的权值
若不存在,d(V0,Vi) 为∞
2. 从 T 中选取一个其距离值为最小的顶点 W 且不在 S 中,加入 S
3. 对其余 T 中顶点的距离值进行修改:若加进 W 作中间顶点,从 V0 到 Vi 的距离值缩短,则修改此距离值
重复上述步骤 2、3,直到 S 中包含所有顶点,即 W=Vi 为止
动态规划算法
动态规划(Dynamicprogramming)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。
动态规划背后的基本思想非常简单。大致上,若要解一个给定问题,我们需要解其不同部分(即子问题),再合并子问题的解以得出原问题的解。通常许多子问题非常相似,为此动态规划法试图仅仅解决每个子问题一次,从而减少计算量:一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。这种做法在重复子问题的数目关于输入的规模呈指数增长时特别有用。
关于动态规划最经典的问题当属背包问题。
算法步骤:
1. 最优子结构性质。如果问题的最优解所包含的子问题的解也是最优的,我们就称该问题具有最优子结构性质(即满足最优化原理)。最优子结构性质为动态规划算法解决问题提供了重要线索。
2. 子问题重叠性质。子问题重叠性质是指在用递归算法自顶向下对问题进行求解时,每次产生的子问题并不总是新问题,有些子问题会被重复计算多次。动态规划算法正是利用了这种子问题的重叠性质,对每一个子问题只计算一次,然后将其计算结果保存在一个表格中,当再次需要计算已经计算过的子问题时,只是在表格中简单地查看一下结果,从而获得较高的效率。
朴素贝叶斯分类算法
朴素贝叶斯分类算法是一种基于贝叶斯定理的简单概率分类算法。贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不相关。
朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法,换言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。
尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。
三:重点算法总结
排序算法:快速排序、归并排序、冒泡排序、选择排序、插入排序等。这些算法的时间复杂度和空间复杂度是比较的重点。查找算法:二分查找、哈希查找、线性查找等。二分查找的实现和时间复杂度分析是重点。贪心算法:最短路径、最长路径、最小生成树等。这类算法的理论基础和实现是重点。回溯算法:全排列、N皇后、解数独、0-1背包等。这类算法更侧重递归的应用和实现。动态规划:斐波那契数列、爬楼梯、最长公共子序列等。这类算法的理论分析、状态转移方程和实现代码是考查重点。深度优先搜索和广度优先搜索:迷宫寻路、岛屿数量等。这两个算法的区别和实现代码要熟练掌握。数据结构:栈、队列、链表、树、图等的构建和操作。这些数据结构的特点、实现和应用是重要内容。字符串匹配算法:KMP算法、Rabin-Karp算法等。这类算法更侧重于匹配文本字符模式的实现。计算几何:凸包、最近点对等。这块的数学理论和实现难度较大,但考查的可能性也不小。
好啦,小雅兰今天的分享就到这里啦,之后还会继续学习数据结构与算法的知识噢!!!争取未来做一个合格的程序媛!!!