数据采集软件工程师(巴黎/伦敦)

官网 Mistral AI

职位描述

关于 Mistral

At Mistral AI, we are a tight-knit, nimble team dedicated to bringing our cutting-edge AI technology to the world.
我们的使命是让人工智能无处不在、开放共享。
我们富有创造力、低调、有团队精神,多年来一直对人工智能充满热情。
我们雇用在竞争环境中成长起来的人,因为他们觉得在竞争环境中工作更有趣。
我们从世界各地招聘充满激情的男女员工。
我们的团队分布在法国、英国和美国
角色概述
我们正在寻找一名技术娴熟、积极进取的网络抓取和数据索引工程师加入我们充满活力的工程团队。
理想的候选人将在网络抓取、数据提取和索引方面拥有深厚的背景,并侧重于利用先进的工具和技术从各种网络资源中收集和处理大规模数据。
该职位的工作地点在巴黎或伦敦
主要职责
使用 Python 库(如 Beautiful Soup)开发和维护网络爬虫,从目标网站中提取数据。
利用无头浏览技术(如 Chrome DevTools)来自动化和优化数据收集流程。
与跨职能团队合作,从 API 中识别、抓取和集成数据,以支持业务目标。
使用正则表达式、XPaths 和 CSS 选择器创建和实施高效的解析模式,以确保准确的数据提取。
使用 Redis、Kubernetes 和 Postgres 等技术设计和管理分布式作业队列,以处理大规模数据处理任务。
制定策略,以监控和确保整个抓取和索引过程中的数据质量、准确性和完整性。
不断改进和优化现有的网络抓取基础设施,以最大限度地提高效率并适应新的挑战。

offer要求 [offer requirements]

Qualifications & profile
计算机科学、信息系统或信息技术专业的学士或硕士学位
对网络技术、数据结构和算法有深入了解。
他们应了解数据库管理系统和数据仓库。
编程语言:必须熟练掌握 Python、Java 或 C++ 等编程语言。
掌握网络技术:了解 HTML、CSS 和 JavaScript 对于浏览网站和从网站中抓取数据至关重要。
了解 HTTP 和 HTTPS 协议
充分了解数据结构(如队列、堆栈和哈希图)和算法是必要的
了解数据库(SQL 或 NoSQL)对于存储和管理抓取的数据非常重要。
了解分布式系统和技术,如 Hadoop 或 Spark 使用网络抓取库和框架(如 Scrapy、BeautifulSoup、Selenium 或 MechanicalSoup)的经验
了解搜索引擎如何工作以及如何优化网络抓取。
拥有机器学习方面的经验,以提高网络抓取的效率和准确性
熟悉 Pandas、NumPy 和 Matplotlib 等工具,以便分析和可视化数据。

offer福利 [offer benefits]

福利
每日午餐代金券
Gympass订阅费用
每日午餐代金券
每月为移动通行证缴费
为您和您的家人提供全面的健康保险
优厚的育儿假政策

滚动至顶部