日立、OSSベースでのビッグデータ分析を最大100倍に高速化する技術を開発
[17/11/14]
TOKYO, Nov 14, 2017 - (JCN Newswire) - 株式会社日立製作所(執行役社長兼CEO:東原 敏昭/以下、日立)は、このたび、オープンソースソフトウェア(OSS)のHadoopデータ処理基盤*1で行うビッグデータ分析を、最大100倍に高速化する技術を開発しました。本技術は、本来はソフトウェア処理に合わせて作られているデータ処理手順を、ハードウェア上の並列処理に適した手順に変換した上で、さまざまな形式のデータをFPGA*2上で高速に処理することを可能にします。これにより、高速分析を行う場合でも多数のサーバーが不要となるため、データサイエンティストが行うインタラクティブ分析や、ビジネス現場での迅速な意思決定、タイムリーな情報提供サービスなどを、低コストで実現します。日立は、今後、本技術を金融や通信などの分野に適用し、実証実験を進めることで、データアナリティクスサービスの基盤を支えていきます。
近年、IoTに用いられるセンサーをはじめ、金融機関の口座取引記録や、ソーシャルメディアの情報などの大量かつ多様なデータを、さまざまな視点や条件でインタラクティブに分析して業務やサービスに反映させる、ビッグデータ分析の重要性が高まっています。分析には、オープンソースのHadoopデータ処理基盤が広く使用されていますが、高速化のためには多数のサーバーが必要であり、機器や管理のコスト増大が課題となっています。
日立は、2016年にFPGAを用いた高速データ処理技術を開発*3しています。しかし、この技術は、Hadoopデータ処理基盤とはデータ管理方式の異なる、自社のデータベースを対象とした技術であり、データベース管理ソフトウェア自体にも個別のカスタマイズを行っているため、Hadoopデータ処理基盤への適用は困難でした。
そこで、今回日立は、Hadoopデータ処理基盤においてFPGAを用いた高速データ処理を実現する技術を開発しました*4。開発した技術の特長は以下の通りです。
1. FPGA向けに処理効率を最適化する、データ処理手順変換技術
Hadoopデータ処理基盤のデータ処理エンジンは、CPUを用いてソフトウェアで順次処理を実行することを前提に、データの取得・検索・演算といったデータ処理の手順を最適化しています。しかし、この処理手順をそのまま実行しても、ハードウェアが得意とする並列処理による高速化の効果を十分に生かすことができません。そこで、Hadoopの処理手順を解析し、分散処理効率を考慮した上で、FPGAでの並列処理に適した順序に処理命令を変換する、データ処理手順変換技術を開発しました。これにより、FPGAの回路を無駄なく効率的に利用可能となります。
2. さまざまなデータの形式を解析してFPGAで高速に処理する回路設計
従来は、FPGA上で処理を行う場合は、日付や数値、文字などのデータ形式を、ハードウェアで処理しやすい形式に限定し、データの種類ごとに専用の処理回路を用意する必要がありました。しかし、Hadoopデータ処理基盤では、例えば同じ日付のデータでもUNIX通日型、ユリウス通日型など複数の形式を許容するため、多くの専用処理回路が必要となり、搭載規模に限界のあるFPGAの回路領域を有効に活用できません。そこで、さまざまなデータ*5の形式やサイズを判別する解析回路を設け、データ形式やサイズに応じて複数のデータを一つの回路でまとめて処理するなど、並列処理の最適化調整を行う回路設計を考案しました。これにより、さまざまなデータに対応できるだけでなく、検索処理や集約処理の回路を無駄なく利用した並列処理が可能となり、高速データ処理を実現します。
本技術をHadoopデータ処理基盤に適用し、サンプルデータの分析を行った結果、データ処理性能を最大100倍に高速化できることを確認しました。これにより、高速分析に必要なサーバー数を大幅に削減することができるため、現在広く行われているHadoopベースのビッグデータ分析の低コスト化が可能です。日立は、今後、お客さまとの実証実験を通じて、本技術の実用化をめざします。
なお、本成果は、2017年11月13日(月)〜16日(木)に米国・デンバーで開催される「SC17(The International Conference for High Performance Computing, Networking, Storage and Analysis)」において、技術展示を行う予定です。
本リリースの詳細は下記URLをご参照ください。
http://www.hitachi.co.jp/New/cnews/month/2017/11/1114.html
概要:日立製作所
詳細は www.hitachi.co.jp をご参照ください。
Copyright 2017 JCN Newswire. All rights reserved. www.jcnnewswire.com
近年、IoTに用いられるセンサーをはじめ、金融機関の口座取引記録や、ソーシャルメディアの情報などの大量かつ多様なデータを、さまざまな視点や条件でインタラクティブに分析して業務やサービスに反映させる、ビッグデータ分析の重要性が高まっています。分析には、オープンソースのHadoopデータ処理基盤が広く使用されていますが、高速化のためには多数のサーバーが必要であり、機器や管理のコスト増大が課題となっています。
日立は、2016年にFPGAを用いた高速データ処理技術を開発*3しています。しかし、この技術は、Hadoopデータ処理基盤とはデータ管理方式の異なる、自社のデータベースを対象とした技術であり、データベース管理ソフトウェア自体にも個別のカスタマイズを行っているため、Hadoopデータ処理基盤への適用は困難でした。
そこで、今回日立は、Hadoopデータ処理基盤においてFPGAを用いた高速データ処理を実現する技術を開発しました*4。開発した技術の特長は以下の通りです。
1. FPGA向けに処理効率を最適化する、データ処理手順変換技術
Hadoopデータ処理基盤のデータ処理エンジンは、CPUを用いてソフトウェアで順次処理を実行することを前提に、データの取得・検索・演算といったデータ処理の手順を最適化しています。しかし、この処理手順をそのまま実行しても、ハードウェアが得意とする並列処理による高速化の効果を十分に生かすことができません。そこで、Hadoopの処理手順を解析し、分散処理効率を考慮した上で、FPGAでの並列処理に適した順序に処理命令を変換する、データ処理手順変換技術を開発しました。これにより、FPGAの回路を無駄なく効率的に利用可能となります。
2. さまざまなデータの形式を解析してFPGAで高速に処理する回路設計
従来は、FPGA上で処理を行う場合は、日付や数値、文字などのデータ形式を、ハードウェアで処理しやすい形式に限定し、データの種類ごとに専用の処理回路を用意する必要がありました。しかし、Hadoopデータ処理基盤では、例えば同じ日付のデータでもUNIX通日型、ユリウス通日型など複数の形式を許容するため、多くの専用処理回路が必要となり、搭載規模に限界のあるFPGAの回路領域を有効に活用できません。そこで、さまざまなデータ*5の形式やサイズを判別する解析回路を設け、データ形式やサイズに応じて複数のデータを一つの回路でまとめて処理するなど、並列処理の最適化調整を行う回路設計を考案しました。これにより、さまざまなデータに対応できるだけでなく、検索処理や集約処理の回路を無駄なく利用した並列処理が可能となり、高速データ処理を実現します。
本技術をHadoopデータ処理基盤に適用し、サンプルデータの分析を行った結果、データ処理性能を最大100倍に高速化できることを確認しました。これにより、高速分析に必要なサーバー数を大幅に削減することができるため、現在広く行われているHadoopベースのビッグデータ分析の低コスト化が可能です。日立は、今後、お客さまとの実証実験を通じて、本技術の実用化をめざします。
なお、本成果は、2017年11月13日(月)〜16日(木)に米国・デンバーで開催される「SC17(The International Conference for High Performance Computing, Networking, Storage and Analysis)」において、技術展示を行う予定です。
本リリースの詳細は下記URLをご参照ください。
http://www.hitachi.co.jp/New/cnews/month/2017/11/1114.html
概要:日立製作所
詳細は www.hitachi.co.jp をご参照ください。
Copyright 2017 JCN Newswire. All rights reserved. www.jcnnewswire.com