手机浏览器扫描二维码访问
(例:UC浏览器、QQ浏览器)
精彩阅读苹果小说网
传统ugc平台的最大弊端,就是在用户基数较少的情况下,高质量的内容不多,而内容少则会导致用户也少,平台活跃度低,这是一个类似&ldo;先有鸡还是先有蛋&rdo;的问题。
所以在运营初期,运营者需要从其他网站上抓取内容来填充平台资源。
在这个过程中,有钱的团队会自己招编辑,人工从网上复制粘贴;没钱的团队会自己开发一个算法,定时浏览特定的网站,并把内容下载到本地,再发布到平台中。
而无论人工抓取还是机器抓取,都有个共同的弊端,就是及时性低:人不可能二十四小时地盯着其他网站的变化,而机器抓取则因为受限于网站流量、带宽等因素,也只能做到定时轮询抓取‐‐例如每十分钟更新一次数据,除非目标网站主动通过api推送更新信息,否则只能做到轮询抓取。
虽然能够抓到数据,但准确性不高。
&ldo;可怎么会这么快?你刚在电脑上发了帖,大壮的手机就显示了。
&rdo;莫飞虽不太懂技术,但基本的网络原理还是一清二楚,面对何阳如此高效的抓取算法,他难以置信,&ldo;按理说……不可能做到这么快的。
&rdo;
&ldo;其实还不算快,有大概几千毫秒的延迟。
&rdo;何阳略带遗憾地说,&ldo;服务器配置太低了,暂时只能做到这样。
我统计过,同类型的宠物资讯网站大概有一百多家,现在我这个系统,只能保证排在前五位的网站不低于五千毫秒左右的延迟。
&rdo;
他继续剖析算法的原理:&ldo;传统的通过爬虫软件抓取数据信息的做法,对服务器带宽和工作线程都有严苛的要求,毕竟爬虫不可能一直挂在人家的网站上抓数据,会被ban掉的。
&rdo;说着,他打开了编辑器,指着代码继续科普他算法的工作原理,&ldo;为了防止被ban,又能提高效率,我设计了三组服务器集群,一组用来爬网站的站点地图,另一组用来监测网站地图的变化,当发现网站地图有变化时,第三组服务器才去抓取有变化的内容。
&rdo;他边说边切换着屏幕上的几个抓取程序,&ldo;这三组集群交互访问,并及时切换代理ip,互相配合,才完成了狗狗宝的信息抓取……&rdo;
想不到一个不起眼的宠物社交平台的背后,竟然有如此复杂的程序逻辑,莫飞不禁有点儿佩服何阳。
而且,他深深地意识到,虽然何阳把原理说得简单明了,但这背后,一定有着极大的工作量。
&ldo;不过,这么一个高效的抓取算法,如果只用来抓狗的交配信息……是不是有点儿大材小用了?&rdo;莫飞暗自嘀咕道,&ldo;是不是……可以改造成更有用的东西呢?&rdo;
创业失败之后,你该如何找工作?
1
几天后,商讯网刊登了胡威对欢聚app的报道。
商讯网庞大的用户群,为林姿和她的创业团队带来了不少关注,她还一度上了微博热搜榜。