今天小编给大家带来了高职教育专业教学资源分析,有需要的小伙伴一起来参考一下吧,希望能给大家带来帮助!
摘要:笔者详细研究了高职教育专业教学资源搜索引擎的设计与实现,利用分布式爬虫技术,对互联网上的教学资源信息进行爬取、去噪、提炼,获得有效的信息进行保存。同时,建立教学资源的搜索平台,方便学生快速检索网络教学资源。
目前,互联网+教育已十分普及,我国网校也达上千家。网校多以考试辅导、专业技能培训为主。此外,还有些人文教育平台,而针对高等教育的平台的建设,目前国内还在起步阶段。目前,国内主要有网易云课堂、慕课网等等平台,这些平台的资源较为分散,学生在寻找相关资料时,也比较费时,影响了学习的积极性和效率。利用搜索引擎的相关知识,搜集互联网上相关的高职教育专业的教学资源,能够有效帮助学生快速找到目标资料。同时,应用积累的数据,建立高职教育专业网络教学资源数据仓库。此外,还可以积累搜索关键词的频率,掌握最受欢迎的学科或学习资料,为教学资源的再生提供方向与引导。
1专业教学资源搜索引擎需求分析
研究高职教育专业教学资源搜索引擎的主要目的是帮助解决高职院校学生学习资源不集中、大部分学生搜索学习资料的能力有限等问题。高职教育专业教学资源搜索引擎的研究,主要是根据学生输入的搜索内容,将内容进行分割成关键字,利用关键字去各大教学资源站点进行爬虫,将爬出网页资源进行分析,提取网页中的视频资源和其他学习资源,提取资源包含资源下载地址和资源的详细信息。搜索将互联网上的教学资源信息进行爬取、去躁、提炼,获得有效的信息进行保存。各类网页信息的特征不相同,针对不同的网页信息,信息提炼方法也不同。具体的研究目标可以总结如下:(1)建立完备知识库类别;(2)实现资源的共建共享;(3)进行Web集成,展示搜索的教育资源;(4)资源检索,为使用者提供资源库中资源的多种检索功能。
2系统设计
2.1分布式爬虫架构设计
这个模块主要分成两个子模块,爬虫模块和信息分类和提取模块,下面主要介绍爬虫模块。爬虫模块指的是对不同的站点内网页信息进行数据釆集,该部分主要包括爬虫控制模块和爬虫节点模块。(1)爬虫控制模块主要负责对爬虫节点的控制工作,其主要有四个职责:任务调动分配、监测状态、设置参数、通信控制。(2)爬虫节点模块具有网页下载、URL排重和存储(链接管理)、网页解析、数据存储等功能。具体的分布式爬虫架构如图1所示。
2.2爬虫爬行搜索策略
网页爬虫算法最常见的爬行策略是广度优先遍历和深度优先遍历,它们都是基于图的遍历算法。2.2.1深度优先遍历算法爬虫节点输入开始的URL-A获取网页,分析网页并获取网页中的一个URL-B,再分析根据B获取的网页,并获取一个URL-C,直到网页中没有UR,然后不断处理不同的链路。然而,随着层次的深入,网页的价值和PageRank都会随之下降。这表示价值越高的网页距离种子网页越近,层次越深则其价值越低。2.2.2广度优先遍历算法从起始网页A开始,先抓取该页面的所有页面,然后从页面A中选择一个,继续抓取该页面的所有URL,然后在页面A重新选择一个URL,如此抓取页面中的所有链接页面。本系统的爬虫主要使用广度优先遍历算法,首先,互联网的网页相互连通,最大的链接深度可以达到17层。因此,从网页A到网页B会存在多条路径,需要考虑最短路径的问题,若使用深度优先,会有从低PageRank值到高PageRank值的过程的情况出现,计算PageRank的值比较复杂。而广度优先可以很方便实现并行操作,对于同一个网页上的链接可以通过并行操作提高爬行速度。
2.3分布式任务调度策略
分布式任务调度数据采集有三种方式:动态、静态和独立。爬虫节点间相互独立是不切实际的,如果采用动态任务分配的模式,爬虫任务集合的划分比较简单,容易维护,确保节点资源最大化被运用到,但是如果考虑到各个爬虫节点机器性能间的差异,动态分配会增加爬虫节点和控制节点的通信数据量,节点的网络带宽负载会过大。静态任务分配模式的思想是根据初始的机器节点的数量,将所有的任务分成N个子集,之后将任务子集提前根据机器性能手动分布相应的爬虫节点,任务分配,节点各自执行各自的任务,互不干涉。静态任务分配的策略有:基于站点名称、基于URL、随机划分。本研究中采用的按站点进行任务划分的静态划分方式是三种方式中最佳的。
2.4资源管理平台
网络教学资源共享平台是高校数字化学习体系的一部分,高职教学资源库具有强大的资源查询与管理功能。我的资源库模块,可以集中、方便地维护个性化资源。快速浏览模块,可以查询所有资源库的资源,包括开放课程与精品课程中的预置资源及专题库中的本校自建资源。开放课程&精品课程模块,可以查询系统中预置的资源(提前爬虫入库的资源),包括全球开放课程、全国精品课程、清华精品课程、视频资源等。专业资源模块可以查看本校各院系专业所关联专题库中的资源。通知公告模块,用于管理资源库首页公布的通知公告。专题库模块,供本院校建设、管理自建的校本资源。统计信息模块,提供详细的资源使用及用户信息统计功能,方便管理人员快速了解资源库应用情况。资源上传模块,提供多种方式给各用户为资源库添加资源,包括上传资源和对资源进行编目两部分。系统设置模块,用于管理员对资源库的基础数据进行设置,承担资源库基础结构维护的任务。用户管理模块,用于管理员添加和删除用户、管理用户角色。
3系统实现
3.1中心控制节点详细设计
中心控制节点功能主要包括:增加爬虫节点,删除爬虫阶段,分配任务给爬虫节点,配置节点运行参数,协调爬虫节点之间的工作,监测节点状态,保证系统的运行稳定。控制节点主要有四个模块,它们分别是:任务调度模块、状态监控模块、爬虫参数设置、通信模块。
3.2爬虫节点详细设计
爬虫节点爬虫功能结构如图2所示,一个爬虫节点主要模块有两个:爬虫模块和节点通信模块。其中,爬虫模块的子功能有:网页下载功能、网页解析功能、链接管理功能以及数据存储功能。
4结语
利用搜索引擎技术建立高职教育专业教学资源库,并利用搜索到的数据建立教学资源数据仓库,帮助学生快速找到需要的学习资源。研究中采用了分布式爬虫技术,充分使用任务搜索策略和任务调度策略。利用控制节点将任务均分到爬虫节点,指挥爬虫的节点工作。这种方式虽然实现了系统的负载均衡,但是具有单点故障的局限性,一旦中心控制节点发生故障,就会影响整个系统。因此,需要对中心节点实施优化设计,使得当中心节点发生故障时,爬虫节点会选出一台机器自动接手中心控制节点的工作,这也是下一步需要优化的工作。
来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。