招聘人数:5-8人
到岗时间:不限
年龄要求:不限
性别要求:不限
婚况要求:不限
岗位职责:1、负责对互联网上相关领域的文本数据进行抓取、分析与整理;2、模式识别相关数据的处理,智能数据分析模块编写。3、研究相关站点的网站特征,发现它们的特点和规律,设计各种爬虫策略和算法;4、开发爬虫程序,提取文本、链接、图片、文件等各类信息,并持续提升爬虫的抓取效果;5、持续分析爬虫的技术缺陷,并做出合理地调整或改进;6、智能抽取工具的开发。
任职资格:1、熟练掌握Java/Python中至少一种语言并具有1年以上数据抓取工作经验。2、精通Java网络编程,熟悉HTTP传输协议,能模拟浏览器操作爬虫;3、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;4、熟悉HttpClient、jsoup、WebDriver、phantomjs等爬虫工具的使用;5、熟悉Hbase,MongoDB等NoSQL数据库,并至少精通一种关系型数据库的开发,如Mysql、Oracle、MSSQL等;6、了解搜索和爬虫开源软件(lucene、solr、nutch、hadoop)的一种或多种,以及相关原理。7、有linux使用经验,能熟练使用shell命令完成软件安装部署和数据分析任务;
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。