Apache Spark 1.4はR言語を追加し、機械学習を強化

今月初めに発表された新しいアナリティクスクラウドサービスで、Sharmila Mulligan CEOは、ClearStoryのエンジンがどのようにデータの見識を一般ユーザーにシフトさせているかを説明します。

一般的なR統計プログラミング言語へのアクセスを提供することにより、急成長する分析クラスタフレームワークSparkの最新の反復は、データ科学者の生活を楽にすることを目指しています。

Python 3のサポートに加えて、一般に利用可能なSpark 1.4により、RユーザーはSparkR R APIを介して大規模なデータセットに対して直接作業することができます。

「SparkRはSparkの並列エンジンを使用しているため、複数のコアまたは複数のマシンを利用し、スタンドアロンのRプログラムよりもはるかに大きなデータサイズに拡張できます」SparkのDatabricksのスパークコミッタとソフトウェアエンジニアはブログポスト。

SparkRは、UC BerkeleyのAMPLabで最初に開発されたRパッケージであり、Apache SparkにRフロントエンドを提供します。 Wendellは、Sparkの分散計算エンジンを使用することで、Rシェルから大規模なデータ分析を実行することができます。

Spark 1.4では、SparkのDataFrame APIに改良点と新機能が追加され、Spark SQLとDataFrameライブラリにウィンドウ関数が追加されています。ウィンドウ関数を使用すると、ウィンドウ範囲に対する統計を計算できます。

さらに、統計や数学的機能(ランダムなデータ生成、記述統計と相関、不測の事態の表記)の強化されたサポートや欠落したデータを処理するための機能など、DataFramesの多くの新機能を実装しました。

新たな調査によると、データ分析の重要性がますます高まっていることについて、大きなデータプロジェクトに失敗したCEOの数が増えているという。

Mesosphereは、MesosベースのデータセンターOSとAWSの無料版をリリースしました。 Google I / O 2015:Googleのベットマシン学習は、Android、アプリ、クラウドで最先端を生み出すことができます

Data Frameの操作を迅速に行うために、このリリースでは、Sparkの次期1.5リリースの中心テーマとなる幅広いパフォーマンスイニシアチブであるProject Tungstenの最初の部分も含まれています。 Spark 1.4では、シリアライザのメモリ使用量とオプションを改善し、高速バイナリ集約を可能にしました。

Wendell氏によると、Spark 1.2で導入された機械学習パイプラインAPIは、多くのステップからなるワークロードを可能にし、安定した生産準備ができています。

今回のリリースでは、Python APIをJavaおよびScalaインターフェイスと同等のパリティにするとともに、RegexTokenizer、OneHotEncoder、VectorAssemblerなどのさまざまな新機能トランスフォーマーを追加し、弾性ネットとツリーモデルを使用した線形モデルなどの新しいアルゴリズムを利用できるようになりましたパイプラインAPIの中で、 “と彼は言った。

スパークプログラムは複雑なものになる可能性があるため、多くの段階からなるワークフローを使って、Spark 1.4は視覚的なデバッグとモニタリングユーティリティを追加しています。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

たとえば、実行中のプログラム内でステージやタスクの完了を表示するために、アプリケーションタイムラインビューアを利用できるようになりました。 Spark 1.4は、物理的な実行のメトリックに直接関連する基礎となる計算グラフを視覚的に表示します。ビジュアルモニタリングにより、ユーザーはデータストリームのレイテンシとスループットを追跡することもできます。

2009年にUCバークレーの研究プロジェクトとして開始され、Hadoopのサービスが不十分なターゲットワークロードに対応するクラスタリングコンピューティングフレームワークを作成するSparkは、2010年にオープンソース化しました。その創作者はDatabricks社を発見しました。

今年のスパークサミット会議は来週サンフランシスコで開催されます。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実の低さを自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任

ビッグデータの詳細