技术研发部 - 北京工作 - 2016年10月08日
职位职责:
1.根据需求表格分析采集网站和栏目内容并填写业务表格、严格执行规范和流程,并能建议和调优;
2.图形化分析网页结构,提取网页HTML元素的定位路径(即CSS或XPATH)和匹配规则(即正则表达式)并验证路径和规则的正确性;
3.能使用简单的脚步语言和SQL操作数据、文本和文件、数据处理(清洗、标准、归一);特征属性提取并分析;
4.文本分析、自然语言处理等;
5.了解代理上网、验证码、图片识别、人机识别等。
任职要求:
1.计算机相关、信息管理;
2.了解编辑器宏定义、列编辑、百万级数据编辑操作和处理;
3.行业模型抽象能力、数据库表设计;
4.js、jquery或python、beautiful soup或java jsoup;
5.精通熟悉关系型数据库(如MYSQL)和非关系型数据库(如HBASE);
6.网页分析、开发、设计;
7.数据采集、分布式存储和计算、音视频存储和处理。