获天使投资 少年极客造智能爬虫 清理2千万网页 为3000企业寻干净数据

发表于 讨论求助 2022-06-23 10:16:38


造数创始人黄震昕


文| 铅笔道 记者 刘金策


导语


初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获奖,高二孤身上京拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资……


外人眼里的黄震昕,是一个类似科幻电影里天才少年式的人物。


去年10月,他带着一帮同样“Geek”的员工成立了北京造数科技有限公司,开始新一次创业。


造数是一家技术驱动的公司,通过智能解析网页,帮助客户在没有编程基础的情况下,快速获取互联网的公开数据。企业可运用这些外部数据来分析市场、应对竞争、促进销售等,并省去招募爬虫工程师和爬虫维护的成本。


目前,造数已经累计爬取2000万个网页,服务3000家以上企业客户。

 


注:黄震昕承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。


大数据基础层的商业价值


成都,电子科技大学,去年7月。


黄震昕带着同伴在校内游荡。


他在找自己的导师周涛,导师是一位业内的传奇人物:27岁成为四川最年轻的教授,《大数据时代》译者、电子科技大学互联网科学中心主任……这串头衔可以排到很长。


更重要的是,从自己入校那天起,导师就给予了自己信任和支持。他相信这次也不会例外。


三人在一栋教学楼的三楼走廊见面。年轻的教授从走廊翻到天台,示意他俩跟着过去。


黄震昕开门见山,“老师,我在酝酿想做一个新的事情。”


周涛教授的回答同样直接,“你想做什么?”


智能云爬虫,我想从大数据产业链的基础层切入,把互联网上已经开源但是混乱的大数据转成结构化数据,为企业提供有价值的数据资产。”


那你的优势在哪,你凭什么来做这件事?”


“我的团队成员有完整的创业经验,愿意跟我一起干的都是待了3、4年老员工,技术层面绝对信得过……”黄震昕从技术、团队方面回答了老师的问题。


好,我支持你。”老师当场拍板。


不久之后,前一项目的投资方——明势资本投决定再次投资他的新项目。


就这样,导师和明势资本成为黄震昕的天使投资方。


300万天使投资,一支跟了自己4年的技术团队,这是黄震昕去年8月启动造数时的全部资本。


选择数据挖掘领域,他经过了仔细考虑。


对很多中小企业来说,需要从互联网获取外部数据,以便进行市场分析、舆情监控和竞对分析等活动, 例如,对京东、亚马逊的商品进行追踪以获得市场的最新动态,对商圈内大众点评店铺数据进行分析以得到最佳的店铺选点,或者对政府的招投标网站进行检测以第一时间获得市场动态。


大数据时代到来,市场上爬虫的需求越来越多,但是爬虫需要的代码基础使这项服务的专业性门槛较高。“一个小型企业聘请爬虫工程师的成本至少在20万,中型企业的爬虫工程维护成本更高。”


很多时候,企业因为技术和成本限制居然还是手动复制粘贴来收集数据。


黄震昕想做的,是用智能算法来做互联网数据的挖掘,提高效率,为企业节省人力成本,让企业把更多时间集中在数据本身上。


8月的一天,天气正好,日历上说宜动土装修、搬家、结婚、开业,这是黄震昕特意选的黄道吉日,那天,项目正式开工。


对造数团队来说,产品研发过程算的上顺风顺水。


造数网站首页截图


与传统爬虫工具相比,造数做了两点改进:


一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。


第二则是造数的服务搭建在云上,客户只需访问网站即可使用,不需要下载专门的软件。“整个平台都是基于云端的”。


智能算法+云服务


去年年底,项目进入测试阶段。


一位客户主动找上门来,说自己之前想用某工具采集亚马逊上一件商品的所有评论结果,要学习大量专业名词,看5个以上的长视频来学习,“花了一周时间也没学会软件操作”。


改用造数之后,客户5分钟学会操作,从创建爬虫和得到结果一共也没用上十分钟。


得到这个消息的时候,黄震昕觉得有些自豪。


年初,网站服务器突然崩溃,团队却开了两瓶香槟庆祝。


之所以如此,是因为团队此前运营推广效果开始显现,“那天造数网站的独立访问量超过2000,用户量激增”。


对造数这种以技术驱动的公司来说,技术研发过程难度虽大,但心中总算有谱。重点要做的,反而是如何将产品推向市场。


进入测试阶段后,团队就开始考虑这个问题。


恰好,团队负责运营的一位同事在知乎拥有10万粉丝。他在“你写论文时发现了哪些神网站?”这个问题下作答,提到了自己家的网站。


无心插柳,最终这个问题得到约400个赞同,给网站带来1500多的独立访客。


那天之后,团队立马重新调整了系统架构,并对服务器进行了升级。“增加此前平台没有的集群架构,提高了系统可伸缩性”。


为了保持系统持续性运转,团队一直在优化底层技术。2月下旬,造数完成了对网站的深度爬取功能。3月中旬,造数完成了API功能……


现阶段,造数可以提供两种服务模式,一种是根据爬取次数收费的普通服务,另一种则是根据企业需求单独定制的服务,包括私有化部署版本购买,知识图谱,数据产品开发等。


企业用户在使用造数时,需要先行注册,之后输入需要爬取的页面并选取得所需的数据,配置地址规则,之后平台会自动抓取,得到用户所需数据。


数据导出时,用户可通过控制台选择自己喜欢的格式输出,系统目前已经支持Excel,CSV,JSON等多种格式,也可以通过API与企业内部系统进行融合。


现阶段,团队已经累计服务3000家以上的企业,爬取2000万以上网页。


今年,黄震昕和团队将继续优化算法,提高系统智能度以使产品更加易用。同时,团队正计划启动下一轮融资,资金主要用于技术的研发升级。

编辑   赵芳馨     校对   洪佳添

发表