手机浏览器扫描二维码访问
(例:UC浏览器、QQ浏览器)
精彩阅读苹果小说网

第16章

传统ugc平台的最大弊端,就是在用户基数较少的情况下,高质量的内容不多,而内容少则会导致用户也少,平台活跃度低,这是一个类似&ldo;先有鸡还是先有蛋&rdo;的问题。

所以在运营初期,运营者需要从其他网站上抓取内容来填充平台资源。

在这个过程中,有钱的团队会自己招编辑,人工从网上复制粘贴;没钱的团队会自己开发一个算法,定时浏览特定的网站,并把内容下载到本地,再发布到平台中。

而无论人工抓取还是机器抓取,都有个共同的弊端,就是及时性低:人不可能二十四小时地盯着其他网站的变化,而机器抓取则因为受限于网站流量、带宽等因素,也只能做到定时轮询抓取‐‐例如每十分钟更新一次数据,除非目标网站主动通过api推送更新信息,否则只能做到轮询抓取。

虽然能够抓到数据,但准确性不高。

&ldo;可怎么会这么快?你刚在电脑上发了帖,大壮的手机就显示了。

&rdo;莫飞虽不太懂技术,但基本的网络原理还是一清二楚,面对何阳如此高效的抓取算法,他难以置信,&ldo;按理说……不可能做到这么快的。

&rdo;

&ldo;其实还不算快,有大概几千毫秒的延迟。

&rdo;何阳略带遗憾地说,&ldo;服务器配置太低了,暂时只能做到这样。

我统计过,同类型的宠物资讯网站大概有一百多家,现在我这个系统,只能保证排在前五位的网站不低于五千毫秒左右的延迟。

&rdo;

他继续剖析算法的原理:&ldo;传统的通过爬虫软件抓取数据信息的做法,对服务器带宽和工作线程都有严苛的要求,毕竟爬虫不可能一直挂在人家的网站上抓数据,会被ban掉的。

&rdo;说着,他打开了编辑器,指着代码继续科普他算法的工作原理,&ldo;为了防止被ban,又能提高效率,我设计了三组服务器集群,一组用来爬网站的站点地图,另一组用来监测网站地图的变化,当发现网站地图有变化时,第三组服务器才去抓取有变化的内容。

&rdo;他边说边切换着屏幕上的几个抓取程序,&ldo;这三组集群交互访问,并及时切换代理ip,互相配合,才完成了狗狗宝的信息抓取……&rdo;

想不到一个不起眼的宠物社交平台的背后,竟然有如此复杂的程序逻辑,莫飞不禁有点儿佩服何阳。

而且,他深深地意识到,虽然何阳把原理说得简单明了,但这背后,一定有着极大的工作量。

&ldo;不过,这么一个高效的抓取算法,如果只用来抓狗的交配信息……是不是有点儿大材小用了?&rdo;莫飞暗自嘀咕道,&ldo;是不是……可以改造成更有用的东西呢?&rdo;

创业失败之后,你该如何找工作?

1

几天后,商讯网刊登了胡威对欢聚app的报道。

商讯网庞大的用户群,为林姿和她的创业团队带来了不少关注,她还一度上了微博热搜榜。

相邻小说
时尚圈是基佬的天下  无往而不胜的童话  勇士之钥  不嫁入豪门就变蘑菇  总裁致富路  炮灰她软萌甜[快穿]  重生之空间种田记  爱之名  天后,忠犬已到请签收  心之萌  世子说他不在乎外表  苏先生硬盘里的女主角  绝代风华之绝晓篇  在古代养丧尸皇  水晶般透明  绝代风华之代黎篇  光之初  独宠将门农女  冬日最灿烂的阳光  好一朵美丽的黑莲花