当前位置:培训频道岗位技能培训特色课程 》杨老师:Python网络爬虫及数据采集技术培训 (课程编号:1001104094)

Python网络爬虫及数据采集技术培训

    

内容提示

本培训将对基于Python爬虫进行数据采集、处理、数据分析的方法深度剖析,并对Python爬虫原理及实现进行讲解。

培训目标

1,全面了解Python爬虫的相关知识。

2,学习Python爬虫的核心技术方法以及应用特征。

3,深入使用Python在网络数据采集中的使用。


课程大纲

培训对象
1,系统架构师、系统分析师、高级程序员、资深开发人员。
2,牵涉到网络采集、处理和规划的负责人、设计人员。
3,政府机关,金融保险、移动等以互联网信息为数据来源单位的负责人。
4,高校、科研院所牵涉到网络数据采集与数据处理的项目负责人。
学员基础
1,对IT系统设计有一定的理论与实践经验。
2,具备信息检索IR和大数据处理的基础知识。
3,有一定的python基础知识和开发经验。

培训内容
第一讲 网络爬虫基础
1.什么是网络爬虫
2.浏览网页的过程
3.URL的含义
4. 环境的配置
第二讲 Python爬虫基础知识
1.Python爬虫基础学习 
2.Python urllib和urllib2 库的用法
3.Python 正则表达式
4.BeautifulSoup简介
5.爬虫框架Scrapy
第三讲 Urllib库的基本使用
1.网页爬取示例
2.网页爬取方法
3.构造Requset
4.POST和GET数据传送
第四讲 Urllib库的高级用法
1.设置Headers
2. Proxy(代理)的设置
3.Timeout 设置
4.HTTP的PUT和DELETE方法
5.使用DebugLog
第五讲 正则表达式
1.了解正则表达式
2.正则表达式的语法规则
3.正则表达式相关注解
4.Python Re模块
第六讲 Beautiful Soup的用法
1. Beautiful Soup的简介
2. Beautiful Soup 安装
3. 创建 Beautiful Soup 对象
4. Beautiful Soup对象种类
5. 遍历文档树
第七讲 开始采集
1.遍历单个域名
2.采集整个网站
3.通过互联网采集
4.用Scrapy采集
5.几个示例
第八讲 存储数据和读取文档
1.媒体文件
2.把数据存储到CSV
3.MySQL与Python整合
4.读取纯文本和CSV文档
5.读取Word和.docx
第九讲 自然语言处理基础
1.概括数据
2.马尔可夫模型
3.自然语言工具包
4.用NLTK做统计分析
5.用NLTK做词性分析
第十讲 用爬虫测试网站
1.测试简介
2.Python单元测试
3.Selenium单元测试
4.Python单元测试与Selenium单元测试的选择

培训师介绍

杨老师

主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。

所属分类
所属专题
关键词
Python、网络爬虫、
《Python网络爬虫及数据采集技术培训》公开课需求表
您的真实姓名:    * (请一定使用真实姓名)
性    别:   先生女士
公司名称:   
E-mail地址:    *
电话/手机:    * (电话请带上区号,谢谢)
QQ:   
上课时间:   (时间格式:2017-07-22)
上课地点:   
费用预算:    * 元人民币。(请填写数字,不需要填写单位。)
其它咨询:   
验证数字:    验证码,看不清楚?请点击刷新验证码 *
分析销售数据相关讲师
季猛
  • 培训师:季猛
  • 所在地:广州
  • 产品创新管理领域专家
张利平
  • 培训师:张利平
  • 所在地:石家庄
  • 液压气动自动化设备技术专家
分析销售数据相关公开课
1.在大数据时代,人力资源管理可以通过大量的实际经营数据分析,摒弃过去传统的只以结果管理的粗放式人力资源管理模式。2.本课程通过业务数据和人力资源实...
1, 全面了解大数据实时处理技术的相关知识。2,学习Spark的核心技术方法以及应用特征。3,深入使用MLLib在大数据挖掘和实时分析中的使用。 4,掌握ML...
excel培训相关讲师
季猛
  • 培训师:季猛
  • 所在地:广州
  • 产品创新管理领域专家
张利平
  • 培训师:张利平
  • 所在地:石家庄
  • 液压气动自动化设备技术专家
excel培训相关公开课
1.在大数据时代,人力资源管理可以通过大量的实际经营数据分析,摒弃过去传统的只以结果管理的粗放式人力资源管理模式。2.本课程通过业务数据和人力资源实...
1, 全面了解大数据实时处理技术的相关知识。2,学习Spark的核心技术方法以及应用特征。3,深入使用MLLib在大数据挖掘和实时分析中的使用。 4,掌握ML...
博锐登陆:用户名 密码 新用户注册 [收藏本站]
帮助:关于博锐 | 联系博锐 | 留言博锐 | 积分规则 | 稿酬制度 | 服务快车 | 精英俱乐部 | 免费赠送区
首页 | 文库 | 专题 | 专栏 | 媒体   培训   百科 | 论坛 | 信息 | 下载 | 企业关注 | 书城 | 黄页 | 营商智囊 | 专业机构同盟 | 培训师同盟 | 助手
博锐在线客服 ×
博锐微信号

博锐微信号 ×