1 - 30件/全325件
・データ分析基盤及び、ETL基盤の開発、システム開発に携わっていただきます。 ・開発工程をメインで携わっていただきます。 ・詳細設計~テスト・運用まで一気通貫してご対応頂きます。
案件の必須スキル
・下記の開発言語いづれかでの開発経験2年以上又は言語問わずWebアプリの開発経験3年以上 -Python -Scala -C# -Go
案件概要:AI SaaSのデータエンジニア 業務内容: データエンジニアとして、全社横断的なデータ基盤構築・開発をリードしていただきます。 自社AIプロダクトにおけるデータ基盤の設計構築や、 DX事業の顧客に対するデータ活用プロジェクト支援などデータ活用に関する業務を横串でお任せします。 最先端のAIアルゴリズムの研究開発を行っている日本トップクラスのAIスペシャリストと協業しながら、 生成AIを含め最先端のAI技術を活用するためのデータ基盤構築に関わっていただくことが可能です。 開発環境: コード管理 : Git(GitHub) 言語:Python OS:Linux データスタック: Fivetran,dbt,snowflake,Databricks, Apache Airflow,Confluentなど クラウド: Microsoft Azure,AWS,Google Cloud Platform インフラ: Docker, Terraform ドキュメント管理: Notion コミュニケーション: Slack, Zoom タスク管理: Notion 場所:湯島※リモート相談可能 外国籍:不可
案件の必須スキル
• データ基盤およびモダンデータスタックへの理解と実導入・運用・活用経験 • パブリッククラウド(Microsoft Azure、AWS、GCPなどのクラウドサービス)の利用経験 • データモデリングとデータベース設計 • Python、SQLなどのデータ処理に必要なプログラミング言語のスキル
案件概要:AI SaaSのデータエンジニア 業務内容: データエンジニアとして、全社横断的なデータ基盤構築・開発をリードしていただきます。 自社AIプロダクトにおけるデータ基盤の設計構築や、 DX事業の顧客に対するデータ活用プロジェクト支援などデータ活用に関する業務を横串でお任せします。 最先端のAIアルゴリズムの研究開発を行っている日本トップクラスのAIスペシャリストと協業しながら、 生成AIを含め最先端のAI技術を活用するためのデータ基盤構築に関わっていただくことが可能です。 開発環境: コード管理 : Git(GitHub) 言語:Python OS:Linux データスタック: Fivetran,dbt,snowflake,Databricks, Apache Airflow,Confluentなど クラウド: Microsoft Azure,AWS,Google Cloud Platform インフラ: Docker, Terraform ドキュメント管理: Notion コミュニケーション: Slack, Zoom タスク管理: Notion 場所:湯島※リモート相談可能 外国籍:不可
案件の必須スキル
• データ基盤およびモダンデータスタックへの理解と実導入・運用・活用経験 • パブリッククラウド(Microsoft Azure、AWS、GCPなどのクラウドサービス)の利用経験 • データモデリングとデータベース設計 • Python、SQLなどのデータ処理に必要なプログラミング言語のスキル
大手キャリアが提供するスーパー販促プログラムにおいて、加盟店(飲食店、小売等)が利用するシステム(クーポン入稿、ターゲティング設定、配信効果分析など)のデータ関連の開発および、顧客企業との仕様調整、実現性検討を行っていただきます。 Python
案件の必須スキル
・AWSやGCP、Azureなどのクラウドにおける開発経験:2年以上 ・Pythonでの開発経験:3年以上 ・下記の項目を1つ以上満たす方 データベース、データウェアハウスを使ったデータ基盤の開発経験 データ処理パイプラインの開発経験 Apache Hadoop、Sparkなどの分散データ処理の開発経験
・製造業向けのAzure Databricks案件 ・ベンダー側メンバーのITアーキテクトとして参画 ・Bronzeにあるデータを変換して次のSilver Layerに移行(Bronze⇒Silver⇒Gold) ・Gold LayerのデータをML(機械学習)などに活用、BIで分析(別チームが動いている) ・上記の業務内容に伴って以下の業務を実施予定 - 要件分析とソリューションアーキテクチャ設計及び仕様の作成 - データモデリングとデータアーキテクチャ設計 - ETL、データ統合、およびデータ移行の設計
案件の必須スキル
・Data関連の案件で複数参画経験 ・Azure Cloudの経験 ・Pythonのプログラミング経験 ・ジョブ、データブリックスノートブックのパフォーマンス最適化
携帯キャリアでのAIエージェントサービスのプラットフォーム開発を担当して頂きます。 【具体的業務】 ・プラットフォームの各種推定機能における アルゴリズムの性能向上のためのデータ収集 ・ソース修正 ・学習データ作成 【直近の作業】 ・既存システムのSpark化にあたりユニットテスト 作成 ・辞書更新のスクリプト作成 (予定の名前に対してMeCabを使った形態素解析を 実行) ・自動車の位置情報解析スクリプト作成&改修 (滞留点を抽出、自宅職場推定、趣味嗜好推定、 等のスクリプト) 【開発環境】 ■OS ・MacOS(Windowsもあるが開発は基本Mac) ・AmazonLinux ※スクリプトをMacで開発→AmazonLinuxで動作確認 ■言語 ・Python2,3 (両方) ■その他 ・AmazonRedshift ・ApacheSpark ・Docker ・Git ・AWS(EC2、S3、Cloudtrail、cloudwatch、 codecommit 等)
案件の必須スキル
【必須】 ・AWS商用開発経験 ・Pythonによる開発経験 ・仕様書作成経験、能力 ・設計レビュー経験、能力 ・試験レビュー経験、能力 【尚可】 ・AWS spark開発経験 ・チーム内調整の経験、能力
動画プラットフォーム事業にて取得しているデータの分析を担当して頂きます。日々蓄積される膨大なデータを用いて集計や統計分析を行いサービス改善、課題解決を行っていただきます。 <お任せする予定の作業> ・KPI集計や統計分析、ダッシュボードの構築 ・分析を実現するためのデータ収集や段取り ・企画との連携、サービスの開発支援・施策支援 ・他部署からの集計依頼や分析相談 Python
案件の必須スキル
・PythonやRなどを利用したデータ分析の経験:5年以上 ・SQLを用いたデータ分析やデータ集計の経験
エンジニア向けデータ統合プラットフォームのサーバーサイド開発をお願いいたします。 作業内容イメージとしては下記の内容をお任せする予定です。 ・k8s on GCPを使ったデータパイプライン基盤 (Scala)開発 ・Spark on k8s を使ったパイプライン内のサーバーレスコンピューティング基盤(Scala)開発 Scala
案件の必須スキル
・JavaもしくはScalaでの開発経験:3年以上 ・Git / Githubを利用した開発経験:3年以上
EC,動画などの複数コンテンツを開発する企業様にて、 コアプラットフォームの設計・開発をご担当頂きます。 大規模サービスを高度な技術力で支え、 安定したサービスを提供していく事がコアプラットフォームの役割です。 1700万人のユーザーを持つ巨大プラットフォームの根底にある、 プラットフォーム開発・インフラ整備・ガイドラインの整備・セキュリティや品質の確保等、業務は多岐にわたります。 (作業内容例) ・新ポータル開発 ・各基盤APIの設計開発 ・各サービスに跨る基盤の整備 ・高負荷対策フォロー ・業務効率化、開発 ・運用の自動化 ・品質・セキュリティの確保 ・新規サービスの立ち上げフォロー (募集背景) 組織を横断して新規プロジェクトを立ち上げる事になり、 ハイレベルのスキルをお持ちのエンジニアの方を募集し さらにレベルの高いプラットフォームを構築していきたいと考えています。 Java,Python,Ruby
案件の必須スキル
・Ruby on RailsでのWebアプリケーション、APIの開発経験(2年以上) ・Java,Phthon,rubyでの開発経験(2年以上) ・プロジェクトの立ち上げの経験 ・ミドルウェア(Apache,Tomcat,MySQL)に関する構築・運用・チューニング経験 ・Linuxに関する構築・運用・チューニング経験 ・WebAPIの利用・構築に関する知識・経験 ・クラウド基盤を利用した自動化経験 ・Ansibleなどの構成管理ツールの利用経験 ・L2/L3/L4通信に関する基本的な知識 ・Webセキュリティに関する基本的な知識
社内データ分析基盤全般の開発・保守・運用。 →Shell/Ruby/Pythonで開発されているバッチ系システムが主です。 データレイクへの取り込み。 中間テーブル生成。 →追加機能開発 / 不具合調査・修正 / 社内ユーザーからの問合せ対応。 社内ユーザコミュニケーションや要件定義も含む。 インフラからコードデプロイまでを担当。 -ローカルで実装、Sandbox環境で動作検証、Productionデプロイ。 開発案件例。 中間テーブル生成ロジックの実装・メンテナンス。 - 売上集計テーブル、税理士向け事業中間集計テーブル等。 データレイクへ取り込むテーブル/カラムの追加。 - プロダクトDBやSalesforce等のデータ。 Redshift依存処理のリプレイス。
案件の必須スキル
Shell Script を使ったバッチ処理作成経験 Pythonでのプログラミング経験3年以上 SQLでクエリが書ける Git/GitHubの利用や、チケット管理 (JIRA, backlog等) での開発経験 クラウド環境のDWH利用経験 (Redshift, BigQuery, snowflake 等) docker / docker-compose の利用経験
大手飲食業のお客様に向けたデータ支援をいただきます。 原価や売上などの情報を利用し、データパイプラインの開発等を担当いただきます。 現場内にてデータエンジニアとして業務ご支援をいただきます。 ※データサイエンティスト/アナリストではなくデータエンジニアの募集となります 開発環境: Python, Java,EMR, Spark, PySpark Redshift, BigQuery,AWS Glue MySQL, PostgreSQL
案件の必須スキル
・AWSを利用したDWH、ETLの開発実務経験1年以上 ・Glueとredshiftの利用経験 ・要件定義、基本設計、詳細設計の経験
大手飲食業のお客様に向けたデータ支援をいただきます。 原価や売上などの情報を利用し、データパイプラインの開発等を担当いただきます。 現場内にてデータエンジニアとして業務ご支援をいただきます。 ※データサイエンティスト/アナリストではなくデータエンジニアの募集となります 開発環境: Python, Java,EMR, Spark, PySpark Redshift, BigQuery,AWS Glue MySQL, PostgreSQL
案件の必須スキル
・AWSを利用したDWH、ETLの開発実務経験1年以上 ・Glueとredshiftの利用経験 ・要件定義、基本設計、詳細設計の経験
医療系プラットフォームのサーバーサイド開発。 サーバーサイド専門としてAWSのサービスを活用しながら、技術の選定から実装まで行っていただきます。
案件の必須スキル
・Pythonでのサーバーサイド設計/開発/テスト経験 ・TypeScriptでのフロント開発経験(FW指定無し) ・AWS、GCP、 Azure等のパブリッククラウド環境下での開発経験 ・RDBMS又はNoSQLの知識 or 設計経験
kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 Go
案件の必須スキル
・アプリケーション開発経験:3年以上 ・Goの開発経験:3年以上 ・顧客視点のコミュニケーションができる方
■具体的な業務・担当工程 ・メンバーは主に、設計書作成~実装~簡単な結合テストをまでを担当していただきます(リリース前の本格的な結合試験はQAチームが担当) ・新規プロダクトの開発となります。 ・開発フェーズ:3年前から開発がスタートし、2年間のPoC期間を経て1年前から正式にサービスリリース 実際に多くの企業に使っていただくことで、ユーザーニーズの解像度が上がり、現在は多くの新機能の開発に取り組んでおります。 ■開発環境 Language: Ruby / Go / HTML5 / Javascript / Sass Framework:Ruby on Rails / Vue.js Middleware:Hadoop / Spark / Presto / nginx AWS Service:DynamoDB / Aurora / Lambda ※新技術は積極的に検証・採用して開発を進めます。 ■働き方 時短勤務のご相談可能です。 ■チーム環境 プロダクト全体:50名ほど 開発チーム:30名 LQA、インフラ、モバイル、Webチーム Webチーム:10名 L今回はWebチームの募集 L機能ごとに3~5名ほどのチームを組む フロント、バックエンドと明確にチーム分けはされておらず、フロントが強い方/バックエンドが強い方/フルスタックで開発が出来る方と各メンバーのスキルに濃淡があります。 チーム単位で協力して作業を進めるようにしており、 実装で不明な点などがあれば、チーム内で質問すれば助けてもらえるような雰囲気で行っております。
案件の必須スキル
・Go言語での2年以上の開発経験がある方
大手自動車部品メーカー様の主に画像データをMLOpsで利用できるデータセットとして管理する基盤の構築をするプロジェクトでエンジニアを募集してます。 顧客の要望に応じ、データを加工しデータを用意したり、それに伴うデータベースの構築などご担当いただきます。また直近ではDWHの移行などの作業もございます。 ■得られるキャリア クライアントや他メンバーと同じチームを組んで、大規模データ処理基盤の構築を行っていただきます。最新の技術スタックに関わりながら大手自動車メーカーの社会プロジェクトへの貢献ができます。 クライアントとも同じメンバーとして働くことができるため密なコミュニケーションが取れるほか、改善や意見を率直に言える環境です。 フルリモート、コアタイムなしのフルフレックスで、稼働も落ち着いているため、ワークライフバランスを実現しやすい働き方が可能です。 Python
案件の必須スキル
・AWS上での開発経験 ・Python開発経験 ・Git操作が一通りできること ・DataBase(RDB)を活用したアプリケーションの開発経験 ・IaC(Terraformなど)を使用してクラウドインフラの使用経験 ・使ったことのない技術に関するキャッチアップ力
データエンジニアとして、現在構築を進めている新データ基盤への移行を進めるための開発作業をお任せします。 <具体的な業務例> ・Databricks 上に構築された社内向けの新データ基盤の開発・運用 ・AWS 上に構築された旧データ基盤の運用 ・社内各所の要求に応じた dbt によるデータモデリング Python
案件の必須スキル
・pull request ベースでの Python 等のプログラム開発経験(5年以上) ・データ基盤の設計/構築、または運用経験(3年以上) ・SQL によるデータ分析やデータモデリングの経験(3年以上) ・AWS もしくは GCPを利用したサービスの構築経験(3年以上) ・dbt によるデータモデルやデータパイプラインの開発経験(1年以上)
・kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 Go
案件の必須スキル
・Webアプリケーション経験:3年以上 ・Golang:2年以上 ・ユーザー視点のコミュニケーション
■案件概要: ・kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 ※フルリモート可 Go
案件の必須スキル
■必須スキル: ・ Webアプリケーション経験3年 ・ Golang2年 ・ ユーザー視点のコミュニケーション
■具体的な業務・担当工程 ・メンバーは主に、設計書作成~実装~簡単な結合テストをまでを担当していただきます(リリース前の本格的な結合試験はQAチームが担当) ・新規プロダクトの開発となります。 ・開発フェーズ:3年前から開発がスタートし、2年間のPoC期間を経て1年前から正式にサービスリリース 実際に多くの企業に使っていただくことで、ユーザーニーズの解像度が上がり、現在は多くの新機能の開発に取り組んでおります。 ■開発環境 Language: Ruby / Go / HTML5 / Javascript / Sass Framework:Ruby on Rails / Vue.js Middleware:Hadoop / Spark / Presto / nginx AWS Service:DynamoDB / Aurora / Lambda ※新技術は積極的に検証・採用して開発を進めます。 ■働き方 時短勤務のご相談可能です。 ■チーム環境 プロダクト全体:50名ほど 開発チーム:30名 LQA、インフラ、モバイル、Webチーム Webチーム:10名 L今回はWebチームの募集 L機能ごとに3~5名ほどのチームを組む フロント、バックエンドと明確にチーム分けはされておらず、フロントが強い方/バックエンドが強い方/フルスタックで開発が出来る方と各メンバーのスキルに濃淡があります。 チーム単位で協力して作業を進めるようにしており、 実装で不明な点などがあれば、チーム内で質問すれば助けてもらえるような雰囲気で行っております。
案件の必須スキル
・Vueの経験をお持ちの方
当社の各プロダクトのバックエンド開発を行って頂きます。 AWSのマネージドサービスをフル活用しながら将来の事業の変化に合わせた技術の選定、設計、実装を進めます。 サーバーレス化、一部機能のマイクロサービス化、開発効率やスケーラビリティなども考慮しつつ、いかに早く効率的にデリバリーしてユーザに使って頂くかのバランスを取るかをチームで決定しながら開発を進めます。 また一方で、医療情報を扱う事業者として、他の分野と比較して信頼性・セキュリティなどに求められるレベルも高く、インフラ構成も含めて実装を進めます。 高い信頼性やパフォーマンスを維持しつつ安定して開発を継続するため、アプリケーションコード、AWSのインフラ、DevOps などをより良い形で実装、改善をして頂ける方を募集します。 ※エンド直案件となります。面談は弊社同席で1回行います。
案件の必須スキル
・汎用的な高いプログラミング能力 ・AWS/GCP/Azure などのクラウドサービスでの開発経験 ・RDBMS / NoSQLの知識・設計の経験 ・Webアプリケーションでのセキュリティ知識・運用・経験 ・CI/CD、ログ収集、監視などのDevOpsの経験 ・Infrastructure as Codeの知識・経験 【求める人物像】 ・チームで成果を出すことに喜びを感じる方 ・HRT(謙虚・尊敬・信頼)の姿勢を大切にしている方 ・医療に関心のある方 ・課題提起から実際に手を動かして解決してくれる方 ・新しい技術などに好奇心を持ち積極的に挑戦してくれる方 ・中長期でシステムを維持するためのコードの質や開発プロセスを大事にする方 ・アジャイルソフトウェア開発に関心のある方 ・あるべき論だけではなく、現状を踏まえた上で清濁併せのんでプロジェクト推進ができる方 ・主体的に動ける方
・新規データマート要件定義、既存集計フロー効率化 ユーザの要望を聞いて新しいデータマートを作成したり既存の集計フローを自動化することで効率化を図ります ・データマート作成 既存帳票(Excel,CSV)からSQL作成、BIでの可視化 ・データのETL処理やETL処理のためのスクリプト・システム開発運用改善業務 AWSのGlue・Athena等を使用し、SQL・Pythonでコーディングし、S3にデータレイク、データマートを構築 既存の基盤改修・改善 ・データマート日次運用保守業務 Python
案件の必須スキル
・Pythonでの開発経験:3年以上 ・SQL(Window関数やUNION、副問い合わせを流暢に扱えること) ・アプリケーション開発経験
在庫最適化システムを支えるデータ基盤の構築を行っていただきます。 自社サービスSaasの新バージョンをリリースし、エンタープライズとの契約が急激に増えている中で、多くの機能改善要望や機能追加要望が出てきています。 顧客からの数億レコードにもなる大量データの加工をSQLやPythonを用いて作成し、集計後、データストアに投入する機構の構築に携わっていただきます。 社員エンジニアとスクラムチームを形成し、スクラムイベントを通じて、開発メンバー全員でスプリントを消化していく体制になります。 Python
案件の必須スキル
・システム開発経験:3年以上 ・Pythonの実装経験:1年以上 ・Sparkなどの分散処理システムの経験 ・SQLの実装経験(基本的なDDL、DMLに加え、結合、集計、集合、case文、Window関数などを理解している方)
在庫分析クラウドサービスを展開する企業にて、 在庫最適化システムを支えるデータ基盤の構築を行っていただきます。 自社サービスSaasの新バージョンをこの春リリースし、 エンタープライズとの契約が急激に増えている中で、 非常に多くの機能改善要望や機能追加要望が出てきています。 顧客からの数億レコードにもなる大量データの加工をPythonやSQLを用いて作成し、 集計後、データストアに投入する機構の構築に携わっていただきます。 社員エンジニアとスクラムチームを形成し、スクラムイベントを通じて、 開発メンバー全員でスプリントを消化していく体制になります。 Python
案件の必須スキル
・システム開発経験:3年以上 ・Pythonの実装経験:1年以上 ・SQLの実装経験(基本的なDDL、DMLに加え、結合、集計、集合、case文、Window関数などを理解している方)
データ分析プラットフォーム (Databricks) の運用、AWS 利用コスト最適化に関わる業務を実施していただきます。 ▼想定される主な業務 ・利用実態 (既存のリソースの稼働状況、設定されている権限) の調査 ・各種設計ポリシーを元に AWS リソース全般の設計・実装 ・運用ドキュメント (GitHub, Google Workspace) の増補、改善 ・Redash, Databricks を使用したダッシュボードの実装 ・AWS コスト削減方針検討・ライフサイクルなどの実装 AWS
案件の必須スキル
・SQLに関する基本的な知識 ・AWSを利用した開発・運用経験:3年以上 ・Pythonを利用したアプリケーション開発経験:1年ほど
自社プロダクトのデータ分析基盤(API / 解析基盤)の開発・運用を行って頂きます。 Go + Scala + Spark Stream + Hadoopなど最新の技術を積極的に取り入れながら、 データ分析基盤を1から開発する経験ができます。 (作業内容例) ・API、WEBアプリケーションの設計、開発、運用 ・リアルタイム分析基盤の設計、開発、運用 ・広告配信基盤の設計、開発、運用 ・機械学習を使った異常検知/未来予測基盤の設計、開発、運用 Go,Scala
案件の必須スキル
・Java, Ruby, Python, Golangなどのプログラミング言語での開発経験 ・Git / Githubを利用した開発経験 ・RDBMS(MySQL 又は Oracle)を使った開発経験
ライフログアプリのビッグデータを活用した人工知能開発にアサイン頂きます。 スマホセンサーなどから上がってくる行動データやテキスト、 画像の解析をベースに、人工知能技術を使ってAIや機械学習を開発して頂きます。 Python,Scala
案件の必須スキル
・Python、Scalaのいずれかでの言語による開発 ・Spark(MLlib)、scikit-learn、TensorFlow、Keras、Chainerを使った機械学習 研究、開発 ・行動データを使った強化学習、推奨エンジン 研究、開発
■具体的な業務・担当工程 自社メインプロダクトの開発となります。 ・フロントエンドからサーバーサイド、バッチの開発とフルスタックに1つの機能の開発を行っていただきます。 ※お強みに合わせて要相談 ・仕様の確認、実装方針検討、設計、実装、テスト、コードレビューと、開発の工程を一通り担当していただくため、要件定義から仕様検討まで詳細設計からコーディングまでといった限られた役割ではなく、裁量大きく開発をしたい方、能動的に開発を推し進めて頂ける方を求めています。 ■開発環境 Language: Ruby / Go / HTML5 / Javascript / Sass Framework:Ruby on Rails / Vue.js Middleware:Hadoop / Spark / Presto / nginx AWS Service:DynamoDB / Aurora / Lambda ※新技術は積極的に検証・採用して開発を進めます。 ■働き方 時短勤務のご相談可能です。 ■チーム環境 チーム単位で協力して作業を進めるようにしており、 実装で不明な点などがあれば、チーム内で質問すれば助けてもらえるような雰囲気で行っております。
案件の必須スキル
・Ruby on Rails経験あり(2年程度以上) ・Vue.js / React / Typescriptのいずれかの開発経験をお持ちの方
1 - 30件/全325件
この条件の新着案件情報を受け取る
単価で絞り込み
エリアで絞り込み
職種で絞り込み
この条件の新着案件情報を受け取る
■Sparkとは Sparkとは、大規模データ処理のためのオープンソースのクラスタコンピューティングフレームワークで、Hadoop MapReduceよりも高速で汎用的な分散処理を実現します。Sparkはバッチ処理、ストリーム処理、インタラクティブクエリ、機械学習などの様々なワークロードに対応しています。 Sparkの特徴として、メモリ内での高速な処理が可能なこと、Resilient Distributed Dataset(RDD)による耐障害性とデータ不変性を持つこと、Spark SQL、Spark Streaming、MLlib、GraphXなどの豊富なライブラリを持つこと、Scala、Java、Python、Rから利用可能なこと、YARN、Mesos、Kubernetesなどの様々なクラスタマネージャ上で動作すること、データソースとしてHDFS、Cassandra、HBase、S3などに対応していることなどが挙げられます。 Sparkができる開発はビッグデータのバッチ処理、リアルタイムデータ処理、大規模データ分析、機械学習モデルの構築とスコアリング、グラフ分析、ETL処理、データウェアハウジングなどと幅広いです。 Sparkを活用している世界的サービスやプロダクトは、Amazon、eBay、Yahoo!、NASA、Alibaba、Tencent、Amazonなどの大企業や、データ分析プラットフォームのDatabricks、ビッグデータ分析基盤のCloudera、ストリーム処理基盤のConfluent Platformなどで採用されています。また、Sparkはデータサイエンスやデータエンジニアリングの分野で必須のスキルとなりつつあり、多くの企業や組織でデータ活用の中心的な役割を果たしています。 ■Sparkを活用するメリット この章ではSparkを活用するメリットについて説明します。 Sparkを習得することにより、具体的に以下のようなメリットがあります。 ・大規模データの分散処理を高速に行える ・MapReduceよりも高水準のAPIによる開発生産性の向上が見込める ・機械学習ライブラリMLlibによる大規模データの予測分析が可能 ・リアルタイムストリーム処理への対応により多様な処理要件に対応できる ・SQLライクなクエリ言語SparkSQLにより既存スキルの活用が可能 ・PythonやR言語との連携によりデータサイエンス業務との親和性が高い ・クラウドのマネージドサービスで容易に利用可能 Sparkは大規模データ処理基盤、データレイク構築、機械学習基盤など様々なビッグデータ関連業務で利用されており、フリーランス求人・案件数も増加傾向にあります。上記活用する上でのメリットを踏まえて、習得可否を検討することをおすすめします。 ■Sparkを活用するデメリット この章ではSparkを活用するデメリットについて説明します。 Sparkを習得することにより、具体的に以下のようなデメリットがあります。 ・大量リソースを必要とするためインフラコストが高くなる ・多数のクラスタノードを適切に設定・管理する運用負荷が高い ・デバッグやトラブルシューティングが難しい面がある ・安定性や互換性に関する情報が少なく判断が難しい Sparkはメリットが多いですが、インフラコストや運用管理の難しさなど注意すべき点がいくつかあることを理解しておきましょう。 Spark習得を今後検討しているフリーランスエンジニアはSparkを活用するメリットデメリットを比較した上で決めると後悔が少ないでしょう。