爬虫入门系列（一）：快速理解HTTP协议

发布时间：2017年07月07日作者： IT网络文摘 (该文来自笔记，点击查看原文)

4月份给自己挖一个爬虫系列的坑，主要涉及HTTP 协议、正则表达式、爬虫框架 Scrapy、消息队列、数据库等内容。

爬虫的基本原理是模拟浏览器进行 HTTP 请求，理解 HTTP 协议是写爬虫的必备基础，招聘网站的爬虫岗位也赫然写着熟练掌握HTTP协议规范，写爬虫还不得不先从HTTP协议开始讲起

HTTP协议是什么？

你浏览的每一个网页都是基于 HTTP 协议呈现的，HTTP 协议是互联网应用中，客户端（浏览器）与服务器之间进行数据通信的一种协议。协议中规定了客户端应该按照什么格式给服务器发送请求，同时也约定了服务端返回的响应结果应该是什么格式。

只要大家都按照协议规定方式发起请求和返回响应结果，任何人都可以基于HTTP协议实现自己的Web客户端（浏览器、爬虫）和Web服务器（Nginx、Apache等）。

HTTP 协议本身是非常简单的。它规定，只能由客户端主动发起请求，服务器接收请求处理后返回响应结果，同时 HTTP 是一种无状态的协议，协议本身不记录客户端的历史请求记录。

<h3>延伸阅读</h3> <ul> <li><a href="/c_all/article_3015.html">ssh框架</a> <span>2016-09-30 </span> </li> <li><a href="/c_all/article_695270.html">阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695162.html">消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe</a> <span>2024-03-26 </span> </li> <li><a href="/c_all/article_695044.html">Selective Search for Object Recognition 论文笔记【图片目标分割】</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695025.html">词向量-LRWE模型-更好地识别反义词同义词</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695024.html">从栈不平衡问题理解 calling convention</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695023.html">php imagemagick 处理图片剪切、压缩、合并、插入文本、背景色透明</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695022.html">Swift实现JSON转Model - HandyJSON使用讲解</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695021.html">阿里移动安全 Android端恶意锁屏勒索应用分析</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695020.html">集合结合数据结构来看看(二)</a> <span>2017-07-26 </span> </li> </ul> <a class="img" href="http://www.qingruanit.net/c_online/p_yudingshitingke.html"><img alt="学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训" src="http://www.qingruanit.net/attached/image/templet/e87d53eb-cf7a-4689-887a-1cd260f416a5.jpg"><span>学习是年轻人改变自己的最好方式</span></a> </div> </div> </div> </div> </div> <div class="templetrow" key="column_all" templetId="16" orderCol="184" param="infotitle=留言" title="我想了解如何学习" pageTempletId="184" pageTempletTitle="全栏目"> <article class="contentbanner test radius"> <h1>我想了解如何学习</h1> <div class="testheader"> <div class="editable" dataId="" pageTempletId="184" locationKey="l1" backColor="" infoColor="" titleColor=""> </div> </div> <div class="form"> <form name="commentForm" id="commentForm" action="http://www.qingruanit.net:80/comment_add.action" method="post"> <div class="commentform"> <input type="hidden" name="curUrl" id="curUrl"> <input type="hidden" name="curTitle" id="curTitle"> <input type="hidden" name="authcode" id="authcode" value=""> <fieldset> <span class="info">姓名：</span> <input type="text" class="width2col" name="name" id="name"> <span class="message"></span> </fieldset> <fieldset> <span class="info">手机：</span> <input type="text" class="width2col" name="mp" id="mp"> <span class="message"></span> </fieldset> <fieldset> <span class="info">留言：</span> <textarea class="width2col" name="info" id="info"></textarea> <span class="message"></span> </fieldset> </div> <script type="text/javascript"> window.onload=function(){ $("#curUrl").val(window.location.href); $("#curTitle").val($(".test h1").text()); $(".commentform :input").blur(function(){ var inputInfo = $(this).val(); var id=$(this).attr("id"); if(inputInfo.length==0) { $(this).next().html("必填，请输入信息"); $(this).next().removeClass("ok"); //$(this).get(0).focus(); } else { //如果为手机 if(id=="mp"|| id=="qq") { if(inputInfo.length<6) { $(this).next().html("请输入正确的号码"); $(this).next().removeClass("ok"); //$(this).get(0).select(); } else { $(this).next().html("    "); $(this).next().addClass("ok"); } } else { $(this).next().html("    "); $(this).next().addClass("ok"); } } }); } </script> <fieldset> <span class="info"> </span> <input type="button" class="width2col" value="提交" onclick="submitForm(this)"> <span class="message"></span> </fieldset> </form> </div> </article> <script type="text/javascript">  </script> </article> </div> <footer class=""> <div class="footerup"> <div class="footerupTop"> <a href="#" ><span class="number">14</span><span class="upword">年</span><span>我们追求卓越</span></a> <a href="#" ><span class="number">24</span><span class="upword">项</span><span>主流技术引领先锋</span></a> <a href="#" ><span class="number">1000</span><span class="upword">课时</span><span>打造职场干将</span></a> <a href="#" style="border:none;"><span class="number">50000</span><span class="upword">行代码</span><span>练就非凡本领</span></a> </div> <div class="footerdown"> <div class="footeritem"> <h4>关于万码学堂</h4> <ul> <li><a href="/c_about/l_xiaoyuan.html" target="_self">校园环境</a></li> <li><a href="/c_about/article_25.html" target="_self">联系我们</a></li> <li><a href="/map.html" target="_self">网站地图</a></li> </ul> </div> <div class="footeritem"> <h4>关于学习</h4> <ul> <li><a href="https://www.wanmait.com/ad/kaiban.html" target="_blank">课程体系</a></li> <li><a href="https://www.wanmait.com/article/wanma/" target="_blank">关于万码</a></li> <li><a href="https://www.wanmait.com" target="_blank">课程体系</a></li> </ul> </div> <div class="footeritem"> <h4>报名方法</h4> <ul> <li><a href="/c_online/p_yudingshitingke.html" target="_self">申请试听</a></li> <li><a href="/c_online/p_baoming.html" target="_self">在线报名</a></li> <li><a href="/c_online/p_cheshi.html" target="_self">免费测试</a></li> </ul> </div> <div class="footeritem"> <h4>常见问题</h4> <ul> <li><a href="/ask/" target="_self">大家关注</a></li> <li><a href="/c_online/p_keywordad.html" target="_self">在线提问</a></li> <li><a href="/c_all/list_3.html" target="_self">学习方面</a></li> </ul> </div> <div class="footeritem"> <h4>关注我们</h4> <ul> <li><a href="http://weibo.com/qingsoft100" target="_blank"><span class="icon-common icon-common-sina"></span>新浪微博</a></li> <li><a href="https://work.weixin.qq.com/kfid/kfc5d203e0a7d2f3da5" target="_blank"><span class="icon-common icon-common-kongjian"></span>联系我们</a></li> <li><a href="https://work.weixin.qq.com/kfid/kfc5d203e0a7d2f3da5" target="_blank"><span class="icon-common icon-common-weixin"></span>联系微信</a></li> </ul> </div> <div class="online"> <ul> <li class="item1"> <span class="icon-common icon-common-tel"></span>0532-85025005 </li> <li class="item2"> 马上咨询，周一至周日8:00-18:00 </li> <li class="item3"> <a class="btn btn-green" href="https://work.weixin.qq.com/kfid/kfc5d203e0a7d2f3da5" target="_blank"><span class="icon-common icon-common-face"></span>在线客服</a> </li> </ul> </div> </div> </div> <nav class="footermenu"> <ul> <li><a href="c_all/list_1.html" class="">万码学员实训作品</a></li> <li><a href="c_all/list_2.html" class="">IT企业招聘信息</a></li> <li><a href="c_all/list_3.html" class="">在万码学堂奋斗的岁月</a></li> <li><a href="c_all/list_5.html" class="cur">编程知识分享</a></li> <li><a href="c_all/list_6.html" class="">你想了解的万码学堂</a></li> <li><a href="c_all/list_7.html" class="">青岛软件培训课程</a></li> <li><a href="c_all/list_8.html" class="">IT行业动态</a></li> <li><a href="c_all/list_9.html" class="">职场人生</a></li> <li><a href="c_all/list_10.html" class="">学习编程的感想</a></li> <li><a href="c_all/list_11.html" class="">万码学员风采</a></li> <li><a href="c_all/list_14.html" class="">万码学堂技术专家</a></li> </ul> </nav> <p></p> <p>栏目导航： <a href="/c_study/" target="_self">如何学习软件</a> <a href="/c_online/" target="_self">在线申请</a> <a href="/c_about/" target="_self">关于万码学堂</a> <a href="/c_kaiban/" target="_self">开班信息</a> <a href="/c_ask/" target="_self">关注点</a> </p> <p>旗下网站： <a href="http://www.qingdaopeixun.net" target="_blank">青岛IT培训网</a> <a href="http://www.3g4g.net" target="_blank">物联网培训</a> <a href="http://www.qingsoft.cn" target="_blank">程序猿编程派</a> <a href="http://www.diannaoxuexiao.net" target="_blank">青岛电脑学校</a> <a href="http://www.androidpeixun.net" target="_blank">青岛Android培训</a> <a href="http://www.ruanjianpeixun.net" target="_blank">青岛软件培训</a> <a href="http://www.yunpeixun.net" target="_blank">云培训</a> <a href="http://www.qingweb.cn" target="_blank">青岛WEB培训</a> <a href="http://www.wanmait.com" target="_blank">万码学堂官网</a> <a href="http://www.qinghr.net" target="_blank">青岛大学生IT培训</a> </p> <p>青岛青软职业培训学校万码学堂（办学许可证编号：人社民3702023080012号）<a href="https://beian.miit.gov.cn/" target="_blank">鲁ICP备09077726号</a><a href="http://www.qingruanit.net">qingruanit.net</a></p> <p> <address> 青岛市市南区南京路122号B1栋3层咨询电话0532-85025005 </address> </p> <p><script language="javascript" type="text/javascript" src="http://js.users.51.la/17086740.js"></script> <noscript><a href="http://www.51.la/?17086740" target="_blank"><img alt="我要啦免费统计" src="http://img.users.51.la/17086740.asp" style="border:none" /></a></noscript></p> <p> <img src="/static/images/fuze.gif"/> </p> </footer>  </div> </body> </html> <script src="/static/js/jquery-1.11.0.min.js"></script> <script src="/static/js/jquery-ui-1.10.4.custom.min.js"></script> <script type="text/javascript"> $(document).ready(function(){ if($("#fixedmenu")&&$("#themenu")&&$("#themenu").offset()){ $(window).scroll( function() { var wtop = $(window).scrollTop(); var wleft = $(window).scrollLeft(); if(wleft>0){ $("#fixedmenu").css("display","none"); return; } if($("#fixedmenu").html()==""){ $("#fixedmenu").html($("#themenu").html()); $("#fixedmenu").css("top","0"); } if(wtop<$("#themenu").offset().top){ $("#fixedmenu").css("display","none"); } if($("#fixedmenu").outerHeight()>$(".content2colsright").offset().top+$(".content2colsright").outerHeight()-wtop){ //$("#fixedmenu").css("display","none"); $("#fixedmenu").css("top",-($("#fixedmenu").outerHeight()-($(".content2colsright").offset().top+$(".content2colsright").outerHeight()-wtop))+"px"); //$("#fixedmenu").css("left",$("#themenu").offset().left-wleft+"px"); } else if(wtop>$("#themenu").offset().top&&$("#fixedmenu").css("display")!="block"){ $("#fixedmenu").css("display","block"); $("#fixedmenu").css("top","0"); } else{ $("#fixedmenu").css("top","0"); } } ); } }); </script> <script src="https://www.wanmait.com/online/wmonline.js?site=120"></script>

分类导航

爬虫入门系列（一）：快速理解HTTP协议

HTTP协议是什么？