1 - 30件/全309件
大手キャリアが提供するスーパー販促プログラムにおいて、加盟店(飲食店、小売等)が利用するシステム(クーポン入稿、ターゲティング設定、配信効果分析など)のデータ関連の開発および、顧客企業との仕様調整、実現性検討を行っていただきます。 Python
案件の必須スキル
・AWSやGCP、Azureなどのクラウドにおける開発経験:2年以上 ・Pythonでの開発経験:3年以上 ・下記の項目を1つ以上満たす方 データベース、データウェアハウスを使ったデータ基盤の開発経験 データ処理パイプラインの開発経験 Apache Hadoop、Sparkなどの分散データ処理の開発経験
・製造業向けのAzure Databricks案件 ・ベンダー側メンバーのITアーキテクトとして参画 ・Bronzeにあるデータを変換して次のSilver Layerに移行(Bronze⇒Silver⇒Gold) ・Gold LayerのデータをML(機械学習)などに活用、BIで分析(別チームが動いている) ・上記の業務内容に伴って以下の業務を実施予定 - 要件分析とソリューションアーキテクチャ設計及び仕様の作成 - データモデリングとデータアーキテクチャ設計 - ETL、データ統合、およびデータ移行の設計
案件の必須スキル
・Data関連の案件で複数参画経験 ・Azure Cloudの経験 ・Pythonのプログラミング経験 ・ジョブ、データブリックスノートブックのパフォーマンス最適化
動画プラットフォーム事業にて取得しているデータの分析を担当して頂きます。日々蓄積される膨大なデータを用いて集計や統計分析を行いサービス改善、課題解決を行っていただきます。 <お任せする予定の作業> ・KPI集計や統計分析、ダッシュボードの構築 ・分析を実現するためのデータ収集や段取り ・企画との連携、サービスの開発支援・施策支援 ・他部署からの集計依頼や分析相談 Python
案件の必須スキル
・PythonやRなどを利用したデータ分析の経験:5年以上 ・SQLを用いたデータ分析やデータ集計の経験
エンジニア向けデータ統合プラットフォームのサーバーサイド開発をお願いいたします。 作業内容イメージとしては下記の内容をお任せする予定です。 ・k8s on GCPを使ったデータパイプライン基盤 (Scala)開発 ・Spark on k8s を使ったパイプライン内のサーバーレスコンピューティング基盤(Scala)開発 Scala
案件の必須スキル
・JavaもしくはScalaでの開発経験:3年以上 ・Git / Githubを利用した開発経験:3年以上
EC,動画などの複数コンテンツを開発する企業様にて、 コアプラットフォームの設計・開発をご担当頂きます。 大規模サービスを高度な技術力で支え、 安定したサービスを提供していく事がコアプラットフォームの役割です。 1700万人のユーザーを持つ巨大プラットフォームの根底にある、 プラットフォーム開発・インフラ整備・ガイドラインの整備・セキュリティや品質の確保等、業務は多岐にわたります。 (作業内容例) ・新ポータル開発 ・各基盤APIの設計開発 ・各サービスに跨る基盤の整備 ・高負荷対策フォロー ・業務効率化、開発 ・運用の自動化 ・品質・セキュリティの確保 ・新規サービスの立ち上げフォロー (募集背景) 組織を横断して新規プロジェクトを立ち上げる事になり、 ハイレベルのスキルをお持ちのエンジニアの方を募集し さらにレベルの高いプラットフォームを構築していきたいと考えています。 Java,Python,Ruby
案件の必須スキル
・Ruby on RailsでのWebアプリケーション、APIの開発経験(2年以上) ・Java,Phthon,rubyでの開発経験(2年以上) ・プロジェクトの立ち上げの経験 ・ミドルウェア(Apache,Tomcat,MySQL)に関する構築・運用・チューニング経験 ・Linuxに関する構築・運用・チューニング経験 ・WebAPIの利用・構築に関する知識・経験 ・クラウド基盤を利用した自動化経験 ・Ansibleなどの構成管理ツールの利用経験 ・L2/L3/L4通信に関する基本的な知識 ・Webセキュリティに関する基本的な知識
kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 Go
案件の必須スキル
・アプリケーション開発経験:3年以上 ・Goの開発経験:3年以上 ・顧客視点のコミュニケーションができる方
大手自動車部品メーカー様の主に画像データをMLOpsで利用できるデータセットとして管理する基盤の構築をするプロジェクトでエンジニアを募集してます。 顧客の要望に応じ、データを加工しデータを用意したり、それに伴うデータベースの構築などご担当いただきます。また直近ではDWHの移行などの作業もございます。 ■得られるキャリア クライアントや他メンバーと同じチームを組んで、大規模データ処理基盤の構築を行っていただきます。最新の技術スタックに関わりながら大手自動車メーカーの社会プロジェクトへの貢献ができます。 クライアントとも同じメンバーとして働くことができるため密なコミュニケーションが取れるほか、改善や意見を率直に言える環境です。 フルリモート、コアタイムなしのフルフレックスで、稼働も落ち着いているため、ワークライフバランスを実現しやすい働き方が可能です。 Python
案件の必須スキル
・AWS上での開発経験 ・Python開発経験 ・Git操作が一通りできること ・DataBase(RDB)を活用したアプリケーションの開発経験 ・IaC(Terraformなど)を使用してクラウドインフラの使用経験 ・使ったことのない技術に関するキャッチアップ力
データエンジニアとして、現在構築を進めている新データ基盤への移行を進めるための開発作業をお任せします。 <具体的な業務例> ・Databricks 上に構築された社内向けの新データ基盤の開発・運用 ・AWS 上に構築された旧データ基盤の運用 ・社内各所の要求に応じた dbt によるデータモデリング Python
案件の必須スキル
・pull request ベースでの Python 等のプログラム開発経験(5年以上) ・データ基盤の設計/構築、または運用経験(3年以上) ・SQL によるデータ分析やデータモデリングの経験(3年以上) ・AWS もしくは GCPを利用したサービスの構築経験(3年以上) ・dbt によるデータモデルやデータパイプラインの開発経験(1年以上)
・kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 Go
案件の必須スキル
・Webアプリケーション経験:3年以上 ・Golang:2年以上 ・ユーザー視点のコミュニケーション
■案件概要: ・kubernetes 上に構築したアプリケーションの開発や運用業務に携わっていただきます。 ・アプリケーション開発 ・データ系アプリケーションのワークフロー開発 ・運用改善 ※フルリモート可 Go
案件の必須スキル
■必須スキル: ・ Webアプリケーション経験3年 ・ Golang2年 ・ ユーザー視点のコミュニケーション
・新規データマート要件定義、既存集計フロー効率化 ユーザの要望を聞いて新しいデータマートを作成したり既存の集計フローを自動化することで効率化を図ります ・データマート作成 既存帳票(Excel,CSV)からSQL作成、BIでの可視化 ・データのETL処理やETL処理のためのスクリプト・システム開発運用改善業務 AWSのGlue・Athena等を使用し、SQL・Pythonでコーディングし、S3にデータレイク、データマートを構築 既存の基盤改修・改善 ・データマート日次運用保守業務 Python
案件の必須スキル
・Pythonでの開発経験:3年以上 ・SQL(Window関数やUNION、副問い合わせを流暢に扱えること) ・アプリケーション開発経験
在庫最適化システムを支えるデータ基盤の構築を行っていただきます。 自社サービスSaasの新バージョンをリリースし、エンタープライズとの契約が急激に増えている中で、多くの機能改善要望や機能追加要望が出てきています。 顧客からの数億レコードにもなる大量データの加工をSQLやPythonを用いて作成し、集計後、データストアに投入する機構の構築に携わっていただきます。 社員エンジニアとスクラムチームを形成し、スクラムイベントを通じて、開発メンバー全員でスプリントを消化していく体制になります。 Python
案件の必須スキル
・システム開発経験:3年以上 ・Pythonの実装経験:1年以上 ・Sparkなどの分散処理システムの経験 ・SQLの実装経験(基本的なDDL、DMLに加え、結合、集計、集合、case文、Window関数などを理解している方)
在庫分析クラウドサービスを展開する企業にて、 在庫最適化システムを支えるデータ基盤の構築を行っていただきます。 自社サービスSaasの新バージョンをこの春リリースし、 エンタープライズとの契約が急激に増えている中で、 非常に多くの機能改善要望や機能追加要望が出てきています。 顧客からの数億レコードにもなる大量データの加工をPythonやSQLを用いて作成し、 集計後、データストアに投入する機構の構築に携わっていただきます。 社員エンジニアとスクラムチームを形成し、スクラムイベントを通じて、 開発メンバー全員でスプリントを消化していく体制になります。 Python
案件の必須スキル
・システム開発経験:3年以上 ・Pythonの実装経験:1年以上 ・SQLの実装経験(基本的なDDL、DMLに加え、結合、集計、集合、case文、Window関数などを理解している方)
データ分析プラットフォーム (Databricks) の運用、AWS 利用コスト最適化に関わる業務を実施していただきます。 ▼想定される主な業務 ・利用実態 (既存のリソースの稼働状況、設定されている権限) の調査 ・各種設計ポリシーを元に AWS リソース全般の設計・実装 ・運用ドキュメント (GitHub, Google Workspace) の増補、改善 ・Redash, Databricks を使用したダッシュボードの実装 ・AWS コスト削減方針検討・ライフサイクルなどの実装 AWS
案件の必須スキル
・SQLに関する基本的な知識 ・AWSを利用した開発・運用経験:3年以上 ・Pythonを利用したアプリケーション開発経験:1年ほど
自社プロダクトのデータ分析基盤(API / 解析基盤)の開発・運用を行って頂きます。 Go + Scala + Spark Stream + Hadoopなど最新の技術を積極的に取り入れながら、 データ分析基盤を1から開発する経験ができます。 (作業内容例) ・API、WEBアプリケーションの設計、開発、運用 ・リアルタイム分析基盤の設計、開発、運用 ・広告配信基盤の設計、開発、運用 ・機械学習を使った異常検知/未来予測基盤の設計、開発、運用 Go,Scala
案件の必須スキル
・Java, Ruby, Python, Golangなどのプログラミング言語での開発経験 ・Git / Githubを利用した開発経験 ・RDBMS(MySQL 又は Oracle)を使った開発経験
ライフログアプリのビッグデータを活用した人工知能開発にアサイン頂きます。 スマホセンサーなどから上がってくる行動データやテキスト、 画像の解析をベースに、人工知能技術を使ってAIや機械学習を開発して頂きます。 Python,Scala
案件の必須スキル
・Python、Scalaのいずれかでの言語による開発 ・Spark(MLlib)、scikit-learn、TensorFlow、Keras、Chainerを使った機械学習 研究、開発 ・行動データを使った強化学習、推奨エンジン 研究、開発
案件概要:AI SaaSのデータエンジニア 業務内容: データエンジニアとして、全社横断的なデータ基盤構築・開発をリードしていただきます。 自社AIプロダクトにおけるデータ基盤の設計構築や、 DX事業の顧客に対するデータ活用プロジェクト支援などデータ活用に関する業務を横串でお任せします。 最先端のAIアルゴリズムの研究開発を行っている日本トップクラスのAIスペシャリストと協業しながら、 生成AIを含め最先端のAI技術を活用するためのデータ基盤構築に関わっていただくことが可能です。 開発環境: コード管理 : Git(GitHub) 言語:Python OS:Linux データスタック: Fivetran,dbt,snowflake,Databricks, Apache Airflow,Confluentなど クラウド: Microsoft Azure,AWS,Google Cloud Platform インフラ: Docker, Terraform ドキュメント管理: Notion コミュニケーション: Slack, Zoom タスク管理: Notion 場所:湯島※リモート相談可能 外国籍:不可
案件の必須スキル
• データ基盤およびモダンデータスタックへの理解と実導入・運用・活用経験 • パブリッククラウド(Microsoft Azure、AWS、GCPなどのクラウドサービス)の利用経験 • データモデリングとデータベース設計 • Python、SQLなどのデータ処理に必要なプログラミング言語のスキル
案件概要:AI SaaSのデータエンジニア 業務内容: データエンジニアとして、全社横断的なデータ基盤構築・開発をリードしていただきます。 自社AIプロダクトにおけるデータ基盤の設計構築や、 DX事業の顧客に対するデータ活用プロジェクト支援などデータ活用に関する業務を横串でお任せします。 最先端のAIアルゴリズムの研究開発を行っている日本トップクラスのAIスペシャリストと協業しながら、 生成AIを含め最先端のAI技術を活用するためのデータ基盤構築に関わっていただくことが可能です。 開発環境: コード管理 : Git(GitHub) 言語:Python OS:Linux データスタック: Fivetran,dbt,snowflake,Databricks, Apache Airflow,Confluentなど クラウド: Microsoft Azure,AWS,Google Cloud Platform インフラ: Docker, Terraform ドキュメント管理: Notion コミュニケーション: Slack, Zoom タスク管理: Notion 場所:湯島※リモート相談可能 外国籍:不可
案件の必須スキル
• データ基盤およびモダンデータスタックへの理解と実導入・運用・活用経験 • パブリッククラウド(Microsoft Azure、AWS、GCPなどのクラウドサービス)の利用経験 • データモデリングとデータベース設計 • Python、SQLなどのデータ処理に必要なプログラミング言語のスキル
携帯キャリアでのAIエージェントサービスのプラットフォーム開発を担当して頂きます。 【具体的業務】 ・プラットフォームの各種推定機能における アルゴリズムの性能向上のためのデータ収集 ・ソース修正 ・学習データ作成 【直近の作業】 ・既存システムのSpark化にあたりユニットテスト 作成 ・辞書更新のスクリプト作成 (予定の名前に対してMeCabを使った形態素解析を 実行) ・自動車の位置情報解析スクリプト作成&改修 (滞留点を抽出、自宅職場推定、趣味嗜好推定、 等のスクリプト) 【開発環境】 ■OS ・MacOS(Windowsもあるが開発は基本Mac) ・AmazonLinux ※スクリプトをMacで開発→AmazonLinuxで動作確認 ■言語 ・Python2,3 (両方) ■その他 ・AmazonRedshift ・ApacheSpark ・Docker ・Git ・AWS(EC2、S3、Cloudtrail、cloudwatch、 codecommit 等)
案件の必須スキル
【必須】 ・AWS商用開発経験 ・Pythonによる開発経験 ・仕様書作成経験、能力 ・設計レビュー経験、能力 ・試験レビュー経験、能力 【尚可】 ・AWS spark開発経験 ・チーム内調整の経験、能力
大手飲食業のお客様に向けたデータ支援をいただきます。 原価や売上などの情報を利用し、データパイプラインの開発等を担当いただきます。 現場内にてデータエンジニアとして業務ご支援をいただきます。 ※データサイエンティスト/アナリストではなくデータエンジニアの募集となります 開発環境: Python, Java,EMR, Spark, PySpark Redshift, BigQuery,AWS Glue MySQL, PostgreSQL
案件の必須スキル
・AWSを利用したDWH、ETLの開発実務経験1年以上 ・Glueとredshiftの利用経験 ・要件定義、基本設計、詳細設計の経験
大手飲食業のお客様に向けたデータ支援をいただきます。 原価や売上などの情報を利用し、データパイプラインの開発等を担当いただきます。 現場内にてデータエンジニアとして業務ご支援をいただきます。 ※データサイエンティスト/アナリストではなくデータエンジニアの募集となります 開発環境: Python, Java,EMR, Spark, PySpark Redshift, BigQuery,AWS Glue MySQL, PostgreSQL
案件の必須スキル
・AWSを利用したDWH、ETLの開発実務経験1年以上 ・Glueとredshiftの利用経験 ・要件定義、基本設計、詳細設計の経験
下記業務をご担当いただきます。 ・Java(21)+SpringBootでのAPI開発およびAmazonWorkspacesの自動構築周りのNW設定変更 など ※最初は出社となります。その後リモート中心(リリース直前は出社していただく可能性あり)
案件の必須スキル
・Java(SpringBoot)での開発経験 ・Pythonでの開発経験 ・AWSでの開発、構築経験 ・日本国籍の方 ・40代まで
某不動産情報サービス企業様が蓄積している大量データの分析、およびDB構築に関わるデータ調査、分析、データクレンジング、名寄せ処理が主な作業となります。 データ分析以外にも希望があればAWSのマネージドサービス(Glue、Lambda、MWAA等)を用いたデータレイク構築作業にも携わっていただくことが可能です。 Python
案件の必須スキル
・Pythonを利用した開発経験:2年以上 ・データ分析プロジェクトへの参画経験 ・問題点などの共有を自ら行うことができ、自発的に行動できる方 ・協調性があり、コミュニケーション能力の優れている方
在庫最適化システムを支えるデータ基盤の構築を行っていただきます。 自社サービスSaasの新バージョンをリリースし、エンタープライズとの契約が急激に増えている中で、多くの機能改善要望や機能追加要望が出てきています。 顧客からの数億レコードにもなる大量データの加工をSQLやPythonを用いて作成し、集計後、データストアに投入する機構の構築に携わっていただきます。 社員エンジニアとスクラムチームを形成し、スクラムイベントを通じて、開発メンバー全員でスプリントを消化していく体制になります。 Python
案件の必須スキル
・システム開発経験:3年以上 ・Pythonの実装経験:1年以上 ・Sparkなどの分散処理システムの経験 ・SQLの実装経験(基本的なDDL、DMLに加え、結合、集計、集合、case文、Window関数などを理解している方)
◆主な仕事内容 ・社内外のユーザーが利用するデータ分析基盤の構築・運用 ・データ利用のガバナンス維持など、現行の運用時のFit&Gap及び、 Gapの解決に向けての方法 ・Databricks / Snowflake/ AWSなどの設定、棚卸しなどのシステム管理業務 ・データ利用の要件や条件などを遵守した社内外のシステムとの連携 ・新技術の評価、バージョンUPの検証 ・負荷やコストとパフォーマンスを意識したシステム構築 ※ただ開発をするだけでなく、プロジェクト内での意思決定に加わり、 具体的なアクションを決めるところからご参加いただけます。 要件定義から基盤の設計、一部実際の開発支援やデータの運用など、 プロジェクトの核となる部分をメンバーと一緒に実施していただきます。 ※フルリモート可 Python
案件の必須スキル
・JavaやPythonをはじめとした開発経験:3年以上 ・データベース、SQLを使用した開発・運用 ・Linuxでの業務または個人開発経験
■案件内容 以下業務をご担当いただきます。 ・某SNSのシステム開発・運用・保守 ・機能開発、機能改善 ・データベースの構成変更 ・キャパシティ最適化、インデックス最適化、集約など ・アプリケーションサーバの構成変更 ・HTTPサーバやログ基盤の切り替えなど、一部アプリケーションコード改修も伴う ・OSの変更・OSの更新 ・CVE対応、サポート切れへの対応など ・各種ミドルウェアの更新 ・CVE対応、新機能・性能改善の取り込みなど ・その他各種システム構成の変更・更新 ・コンテナ仮想化への切替、マネージドサービス利用による管理コスト削減など 【環境】 iOS(言語、ライブラリなど):Swift、Objective-C Android(言語、ライブラリなど):Java フロント(言語、ライブラリなど):JavaScript、TypeScript、LESS サーバーサイド(言語、ライブラリなど):Perl、Ruby、Python インフラ:AWS(EC2、S3、CloudFront、Route53、Elasticsearch、etc.)、GCP(CloudVisionAPI) ミドルウェア:Apache、nginx、memcached データベース:RDS、MySQL、Aurora モニタリング:CloudWatch、Sensu、Datadog データ分析:GoogleAnalytics、EMR、Spark、SageMaker デプロイツール:Consul、stretcher 環境構築:Chef、Docker、Ansible CI:Jenkins、CircleCI、CodeBuild ■担当工程:要件定義~運用保守 ■求める人物像 ・見出した課題に対して、解決を目指して自発的に動ける方 ・将来を見越したシステム設計や改善提案を行いますことができる方 ・サービスの成長や、ユーザーのことを意識し、開発に携われる方 /リモート可の経験がある方(参画後、業務上問題なければフルリモートも可能です) ■作業場所:渋谷 ■リモート頻度:フルリモート(初日出社) ■精算:140-180 ■打ち合わせ:WEB1回 ■備考:服装:ビジネスカジュアル
案件の必須スキル
・AWSを用いたインフラ環境の構築、運用経験 ・webサービスの開発、運用経験
フルスタックエンジニアの方を募集しております。 ■業種: WEBサービス(BtoC) ■案件内容 ・某SNSのシステム開発・運用・保守 ・機能開発、機能改善 ・データベースの構成変更 ・キャパシティ最適化、インデックス最適化、集約など ・アプリケーションサーバの構成変更 ・HTTPサーバやログ基盤の切り替えなど、一部アプリケーションコード改修も伴う ・OSの変更・OSの更新 ・CVE対応、サポート切れへの対応など ・各種ミドルウェアの更新 ・CVE対応、新機能・性能改善の取り込みなど ・その他各種システム構成の変更・更新 ・コンテナ仮想化への切替、マネージドサービス利用による管理コスト削減など 【環境】 iOS(言語、ライブラリなど):Swift、Objective-C Android(言語、ライブラリなど):Java フロント(言語、ライブラリなど):JavaScript、TypeScript、LESS サーバーサイド(言語、ライブラリなど):Perl、Ruby、Python インフラ:AWS(EC2、S3、CloudFront、Route53、Elasticsearch、etc.)、GCP(CloudVisionAPI) ミドルウェア:Apache、nginx、memcached データベース:RDS、MySQL、Aurora モニタリング:CloudWatch、Sensu、Datadog データ分析:GoogleAnalytics、EMR、Spark、SageMaker デプロイツール:Consul、stretcher 環境構築:Chef、Docker、Ansible CI:Jenkins、CircleCI、CodeBuild ■担当工程: 要件定義~運用保守 ■作業場所 渋谷 ■リモート頻度 フルリモート(初日出社) ■希望単価 精算140-180 ■打ち合わせ WEB1回 ■服装 ビジネスカジュアル
案件の必須スキル
・AWSを用いたインフラ環境の構築、運用経験 ・webサービスの開発、運用経験
当社の各プロダクトのバックエンド開発を行って頂きます。 AWSのマネージドサービスをフル活用しながら将来の事業の変化に合わせた技術の選定、設計、実装を進めます。 サーバーレス化、一部機能のマイクロサービス化、開発効率やスケーラビリティなども考慮しつつ、いかに早く効率的にデリバリーしてユーザに使って頂くかのバランスを取るかをチームで決定しながら開発を進めます。 また一方で、医療情報を扱う事業者として、他の分野と比較して信頼性・セキュリティなどに求められるレベルも高く、インフラ構成も含めて実装を進めます。 高い信頼性やパフォーマンスを維持しつつ安定して開発を継続するため、アプリケーションコード、AWSのインフラ、DevOps などをより良い形で実装、改善をして頂ける方を募集します。 ※エンド直案件となります。面談は弊社同席で1回行います。
案件の必須スキル
・汎用的な高いプログラミング能力 ・AWS/GCP/Azure などのクラウドサービスでの開発経験 ・RDBMS / NoSQLの知識・設計の経験 ・Webアプリケーションでのセキュリティ知識・運用・経験 ・CI/CD、ログ収集、監視などのDevOpsの経験 ・Infrastructure as Codeの知識・経験 【求める人物像】 ・チームで成果を出すことに喜びを感じる方 ・HRT(謙虚・尊敬・信頼)の姿勢を大切にしている方 ・医療に関心のある方 ・課題提起から実際に手を動かして解決してくれる方 ・新しい技術などに好奇心を持ち積極的に挑戦してくれる方 ・中長期でシステムを維持するためのコードの質や開発プロセスを大事にする方 ・アジャイルソフトウェア開発に関心のある方 ・あるべき論だけではなく、現状を踏まえた上で清濁併せのんでプロジェクト推進ができる方 ・主体的に動ける方
1 - 30件/全309件
この条件の新着案件情報を受け取る
単価で絞り込み
エリアで絞り込み
職種で絞り込み
この条件の新着案件情報を受け取る
■Sparkとは Sparkとは、大規模データ処理のためのオープンソースのクラスタコンピューティングフレームワークで、Hadoop MapReduceよりも高速で汎用的な分散処理を実現します。Sparkはバッチ処理、ストリーム処理、インタラクティブクエリ、機械学習などの様々なワークロードに対応しています。 Sparkの特徴として、メモリ内での高速な処理が可能なこと、Resilient Distributed Dataset(RDD)による耐障害性とデータ不変性を持つこと、Spark SQL、Spark Streaming、MLlib、GraphXなどの豊富なライブラリを持つこと、Scala、Java、Python、Rから利用可能なこと、YARN、Mesos、Kubernetesなどの様々なクラスタマネージャ上で動作すること、データソースとしてHDFS、Cassandra、HBase、S3などに対応していることなどが挙げられます。 Sparkができる開発はビッグデータのバッチ処理、リアルタイムデータ処理、大規模データ分析、機械学習モデルの構築とスコアリング、グラフ分析、ETL処理、データウェアハウジングなどと幅広いです。 Sparkを活用している世界的サービスやプロダクトは、Amazon、eBay、Yahoo!、NASA、Alibaba、Tencent、Amazonなどの大企業や、データ分析プラットフォームのDatabricks、ビッグデータ分析基盤のCloudera、ストリーム処理基盤のConfluent Platformなどで採用されています。また、Sparkはデータサイエンスやデータエンジニアリングの分野で必須のスキルとなりつつあり、多くの企業や組織でデータ活用の中心的な役割を果たしています。 ■Sparkを活用するメリット この章ではSparkを活用するメリットについて説明します。 Sparkを習得することにより、具体的に以下のようなメリットがあります。 ・大規模データの分散処理を高速に行える ・MapReduceよりも高水準のAPIによる開発生産性の向上が見込める ・機械学習ライブラリMLlibによる大規模データの予測分析が可能 ・リアルタイムストリーム処理への対応により多様な処理要件に対応できる ・SQLライクなクエリ言語SparkSQLにより既存スキルの活用が可能 ・PythonやR言語との連携によりデータサイエンス業務との親和性が高い ・クラウドのマネージドサービスで容易に利用可能 Sparkは大規模データ処理基盤、データレイク構築、機械学習基盤など様々なビッグデータ関連業務で利用されており、フリーランス求人・案件数も増加傾向にあります。上記活用する上でのメリットを踏まえて、習得可否を検討することをおすすめします。 ■Sparkを活用するデメリット この章ではSparkを活用するデメリットについて説明します。 Sparkを習得することにより、具体的に以下のようなデメリットがあります。 ・大量リソースを必要とするためインフラコストが高くなる ・多数のクラスタノードを適切に設定・管理する運用負荷が高い ・デバッグやトラブルシューティングが難しい面がある ・安定性や互換性に関する情報が少なく判断が難しい Sparkはメリットが多いですが、インフラコストや運用管理の難しさなど注意すべき点がいくつかあることを理解しておきましょう。 Spark習得を今後検討しているフリーランスエンジニアはSparkを活用するメリットデメリットを比較した上で決めると後悔が少ないでしょう。