Apacheドリルはどのように機能しますか?
質問者:Sergejus Jasinsk |最終更新日:2020年1月10日
カテゴリ:テクノロジーとコンピューティングデータのストレージとウェアハウジング
Apache Drillは、構造化データや半構造化/ネストされたデータなど、大規模なデータセット向けの低レイテンシの分散クエリエンジンです。 GoogleのDremelに触発されたDrillは、数千のノードに拡張し、BI / Analytics環境が必要とするインタラクティブな速度でペタバイトのデータをクエリするように設計されています。
簡単に言うと、Apacheドリルは何に使用されますか?Apacheドリル。 Apache Drill (Google Dremelに触発された)を使用すると、ユーザーはMapReduceルーチンまたはETLを使用してスキーマを修正しなくても、さまざまなデータセットを探索、視覚化、およびクエリできます。これは、ElasticsearchやMongoDBNoSQLのようなスキーマフリーのJSONモデルを備えた最初の分散SQLクエリエンジンです。
LinuxでApacheドリルを開始するにはどうすればよいですか?ドリルをインストールするには、次の手順を実行します。
- ターミナルウィンドウで、Drillをインストールするディレクトリに移動します。
- ダウンロードしたファイルを、Drillをインストールするディレクトリにコピーします。
- Drill.tar.gzファイルの内容を抽出します。必要に応じてsudoを使用します:tar -xvzf <.tar.gzファイル名>
これに加えて、Apacheドリルを開始するにはどうすればよいですか?
ドリルを起動するには、次の手順を実行します。
- Windowsコマンドプロンプトを開きます。
- ドリルインストールフォルダに移動します。例:cdUsersuser1drill_repoapache-drill-1.17.0-SNAPSHOT。
- binディレクトリに移動します(例:cd bin)。
- 次のコマンドのいずれかを入力して、ドリルを開始します。
Hadoopのドリルとは何ですか?
Apache Drillは、大規模なデータセットのインタラクティブな分析のためのデータ集約型の分散アプリケーションをサポートするオープンソースのソフトウェアフレームワークです。 1つのクエリで、複数のデータストアのデータを結合できます。たとえば、MongoDBのユーザープロファイルコレクションをHadoopのイベントログのディレクトリに参加させることができます。
18関連する質問の回答が見つかりました
Spark SQLとは何ですか?
Spark SQLは、構造化データ処理用のSparkモジュールです。 DataFramesと呼ばれるプログラミングの抽象化を提供し、分散SQLクエリエンジンとしても機能します。これにより、変更されていないHadoop Hiveクエリを、既存のデプロイメントとデータで最大100倍高速に実行できます。
Impalaはオープンソースですか?
Apache Impalaは、Apache Hadoopを実行しているコンピュータークラスターに格納されているデータ用のオープンソースの超並列処理(MPP)SQLクエリエンジンです。 Impalaは、2012年に開発に影響を与えたGoogleF1に相当するオープンソースとして説明されています。
HadoopのPhoenixとは何ですか?
Apache Phoenixは、Apache HBaseをバッキングストアとして使用するHadoop用のOLTPをサポートする、オープンソースの超並列リレーショナルデータベースエンジンです。
ETLに使用できるHadoopコンポーネントはどれですか?
Apache Sqoopは、MySQL、OracleなどのRDBMSからHBase、Hive、またはHDFSにデータをインポートするために使用される効果的なHadoopツールです。 Sqoop hadoopは、HDFSからRDBMSにデータをエクスポートするためにも使用できます。 Apache Sqoopはコマンドラインインタープリターです。つまり、Sqoopコマンドはインタープリターによって一度に1つずつ実行されます。
誰がハイブを開発しましたか?
Apache Hiveは、最初はFacebookによって開発されましたが、NetflixやFinancial Industry Regulatory Authority(FINRA)などの他の企業によって使用および開発されています。 Amazonは、Amazon WebServicesのAmazonElasticMapReduceに含まれているApacheHiveのソフトウェアフォークを維持しています。
スタードリルとは何ですか?
na石や石積みに穴を開けるために使用される星型のポイントを備えたスチールロックドリル。打撃の合間に回転させながらハンマーで端を叩いて操作します。タイプ:ボアビット、ボーラー、ロックドリル、ストーンドリル。岩を貫通するためのドリル。
どのようにドリルをインストールしますか?
片手でビットを固定しながら、チャックキーを時計回りに回して、もう一方の手でチャックのジョーを締めます。ビットが固定されるようにしっかりと締めてください。チャックキーを取り外します。ビットから手を離し、ドリルをオンにしてテストしてから使用してください。
誰が軍隊で訓練を始めましたか?
フレデリック・フォン・スチューベン男爵
Apacheの色相とは何ですか?
色相は、Apache Hadoopの持つデータを分析するためのWebインターフェイスです。任意のHadoopバージョンの任意のPCにインストールできます。 Hueは、CDHコンポーネントへのWebベースのアクセスと、カスタムアプリケーションを構築するためのプラットフォームを提供するアプリケーションスイートです。次の図は、 Hueがどのように機能するかを示しています。
Presto Hadoopとは何ですか?
PrestoとHadoop
Prestoは、HDFSなどのデータに対する高速でインタラクティブなクエリ用に設計されたオープンソースの分散SQLクエリエンジンです。 寄木細工のファイル形式とは何ですか?
Parquet 、Hadoopのオープンソースファイル形式。 Parquetは、ネストされたデータ構造をフラットな列形式で格納します。データが行指向のアプローチで保存される従来のアプローチと比較して、寄木細工はストレージとパフォーマンスの点でより効率的です。
NoSQLは寄木細工ですか?
Parquetは、リソースを節約する手法を使用して、同じまたは類似のデータを検出してエンコードします。 Apacheのドリルは、寄木張りのために、次のサポートが含まれています。中央集権metastoresでスキーマオーバーレイの定義を定義および管理することなく、ファイルやNoSQLのデータベースで自己記述データを照会します。
Impalaデータベースとは何ですか?
Impalaは、ApacheHadoopのようなクラスター化されたシステム上にあるオープンソースの超並列処理クエリエンジンです。これは、GoogleのDremel紙に基づいて作成されました。これは、Hadoop分散ファイルシステム(HDFS)上で実行されるクエリエンジンのようなインタラクティブなSQLです。 Impalaは、基盤となるストレージとしてHDFSを使用します。