技术研发部 - 北京工作 - 2016年10月08日
职位职责:
1.根据需求表格分析采集网站和栏目内容并填写业务表格、严格执行规范和流程;
2.图形化分析网页结构,提取网页HTML元素的定位路径(即CSS或XPATH)和匹配规则(即正则表达式)并验证路径和规则的正确性;
3.结构化数据;
4.数据处理即清洗(如去脏数据、清理网页标签等)、规整(如规范省市名称等)、标准化(如日期电话格式化等)、归一化;特征属性提取并分析;
库表设计。
任职要求:
1.计算机相关、信息管理和信息系统、数学等专业;
2.了解编辑器的使用、正则查找替换、格式规整、行列转换;
3.熟悉URL、HTML、JSON;正则表达式、CSS(选择器部分即可)、XPATH;JS、JQUERY;
4.了解PYTHON或JAVA;
5.熟悉关系型数据库(如MYSQL)、SQL操作;
6.网页分析、开发、设计;
7.数据采集、数据库设计;
8.较强的归纳总结能力;较强的逻辑分析推理能力;良好的沟通表达能力;
9.熟悉正则表达式者优先;有数据库设计与应用编程经验者优先;有互联网网站设计经验者优先;有学生会、社团骨干经历者优先;
10.热爱大数据行业,耐心、细心、具备良好的沟通能力、理解力、服从力和执行力,有较强抗压能力和强烈的责任心。