Jのブログ

人生の記録

AWS認定 機械学習サンプル問題の日本語メモ

認定試験受けて無事合格しました。サンプル問題が英語だったので、日本語翻訳したのでここに置いておきます。

aws.amazon.com

MLSサンプル問題

1)a Machine Learningチームには、Amazon S3にいくつかの大きなCSVデータセットがあります。歴史的に、構築されたモデル Amazon SageMaker Linear Learnerアルゴリズムを使用すると、同様のサイズのデータ​​セットのトレーニングに数時間かかりました。チームのリーダーはトレーニングプロセスを加速する必要があります。 機械学習スペシャリストは、この懸念に対処するために何ができますか?

  1. Amazon SageMaker Pipeモードを使用します。
  2. Amazon Machine Learningを使用してモデルをトレーニングします。
  3. Amazon Kinesisを使用して、データをAmazon SageMakerにストリーミングします。
  4. AWS Glueを使用して、CSVデータセットJSON形式に変換します。

2)a ユニグラムとバイグラムの両方を使用する用語頻度-逆文書頻度(tf-idf)マトリックスは、次の2つの文で構成されるテキストコーパスから構築されます。 1.以下の番号に電話してください。 2.電話しないでください。 tf–idf行列の次元は何ですか?

A.(2、16) B.(2、8) C(2、10) D.(8、10)

3)b 会社は、Amazon S3に保存されているすべてのデータセットを管理するシステムをセットアップしています。会社は、データでの変換ジョブの実行を自動化し、データセットに関するメタデータのカタログを維持したいと考えています。このソリューションでは、最小限のセットアップとメンテナンスが必要です。 会社が目標を達成できるソリューションはどれですか?

  1. Apache HiveがインストールされたAmazon EMRクラスターを作成します。次に、Hiveメタストアとスクリプトを作成して、スケジュールに従って変換ジョブを実行します。
  2. AWS Glueクローラーを作成して、AWS Glueデータカタログに入力します。次に、AWS Glue ETLを作成します ジョブ、およびデータ変換ジョブのスケジュールを設定します。
  3. Apache SparkがインストールされたAmazon EMRクラスターを作成します。次に、Apache Hiveメタストアを作成します また、スケジュールに従って変換ジョブを実行するスクリプト。 D.データを変換するAWS Data Pipelineを作成します。次に、Apache Hiveメタストアとスクリプトを作成して、スケジュールに従って変換ジョブを実行します。

4)b データサイエンティストは、トレーニングプロセス中に複数のパラメーターを変更することでモデルの最適化に取り組んでいます。データサイエンティストは、同一のパラメーターを使用した複数の実行中に、損失関数が異なるが安定した値に収束することを観察しています。 データサイエンティストは、トレーニングプロセスを改善するために何をすべきですか?

A.学習率を上げます。バッチサイズを同じに保ちます。 B.バッチサイズを小さくします。学習率を下げます。 C.バッチサイズを同じに保ちます。学習率を下げます。 D.学習率を変更しないでください。バッチサイズを増やします。

5)d データサイエンティストは、さまざまなバイナリ分類モデルを評価しています。偽陽性の結果は、偽陰性の結果の5倍(ビジネスの観点から)高くなります。 モデルは、次の基準に基づいて評価する必要があります。 1)80%以上のリコール率が必要 2)10%以下の誤検知率が必要 3)ビジネスコストを最小限に抑える必要がある各バイナリ分類モデルを作成した後、データサイエンティストは対応する混同マトリックスを生成します。 どの混同マトリックスは、要件を満たすモデルを表しますか?

  1. TN = 91、FP = 9 FN = 22、TP = 78
  2. TN = 99、FP = 1 FN = 21、TP = 79
  3. TN = 96、FP = 4 FN = 10、TP = 90
  4. TN = 98、FP = 2 FN = 18、TP = 82

6)b データサイエンティストは、ロジスティック回帰を使用して不正検出モデルを構築します。モデルの精度は99%ですが、不正事例の90%はモデルによって検出されません。 モデルが詐欺事件の10%以上を検出するのに役立つアクションは何ですか?

A.アンダーサンプリングを使用してデータセットのバランスをとる B.クラス確率のしきい値を下げる C.正則化を使用して過剰適合を減らす D.オーバーサンプリングを使用してデータセットのバランスをとる

7)c 企業は、不正行為検出モデルの構築に関心を持っています。現在、データサイエンティストは、不正事例の数が少ないため、十分な量の情報を持っていません。有効な不正事例の最大数を検出する可能性が最も高いのはどの方法ですか?

A.ブートストラップを使用したオーバーサンプリング B.アンダーサンプリング C. SMOTEを使用したオーバーサンプリング D.クラスの重量調整

8)d 機械学習エンジニアは、Amazon SageMaker Linear Learnerアルゴリズムを使用して、教師あり学習タスクのデータフレームを準備しています。 MLエンジニアは、ターゲットラベルクラスが 非常に不均衡で複数の機能列に欠損値が含まれています。データフレーム全体の欠損値の割合は5%未満です。 MLエンジニアは、欠損値によるバイアスを最小限に抑えるために何をすべきですか?

A.各欠損値を、同じ行の非欠損値の平均値または中央値に置き換えます。 B.欠損値がデータの5%未満を表すため、欠損値を含む観測値を削除します。 C.各欠損値を、同じ列の欠損値以外の平均値または中央値で置き換えます。 D.各機能について、他の機能に基づく教師あり学習を使用して欠損値を近似します。

9)b 企業は、決定木を使用して、製品に関する顧客のコメントを収集し、安全または安全でないと評価しました。トレーニング データセットには次の機能があります:id、日付、完全なレビュー、完全なレビューの要約、およびバイナリのセーフ/アンセーフタグ。トレーニング中に、機能が欠落しているデータサンプルは削除されました。いくつかの例では、テストセットに完全なレビューテキストフィールドがないことがわかりました。 このユースケースでは、機能が欠落しているテストデータサンプルに対処するための最も効果的なアクションコースはどれですか?

A.完全なレビューテキストフィールドが欠落しているテストサンプルをドロップし、テストセットを実行します。 B.要約テキストフィールドをコピーし、それらを使用して不足している完全なレビューテキストフィールドに入力し、テストセットを実行します。 C.決定木よりも欠損データをうまく処理するアルゴリズムを使用します。 D.欠落データのあるフィールドに入力する合成データを生成し、テストセットを実行します。

10)d 人間のレビューは費用がかかり、エラーが発生しやすいため、保険会社はクレームコンプライアンスレビューを自動化する必要があります。同社には多数のクレームとコンプライアンスラベルがあります。 各クレームは英語のいくつかの文で構成され、その多くには関連する複雑な文が含まれています 情報。経営陣は、Amazon SageMaker組み込みアルゴリズムを使用して、各クレームを読み取り、クレームが準拠しているかどうかを予測するようにトレーニングできる機械学習監視モデルを設計したいと考えています。 ダウンストリームの監視タスクの入力として使用されるクレームから機能を抽出するには、どのアプローチを使用する必要がありますか?

A.データセット全体のクレームからトークンの辞書を取得します。トレーニングセットの各クレームで見つかったトークンにワンホットエンコーディングを適用します。派生フィーチャスペースを入力としてAmazon SageMakerの組み込みの監視付き学習アルゴリズムに送信します。 B. Word2VecモードでAmazon SageMaker BlazingTextをトレーニングセットのクレームに適用します。派生フィーチャスペースを、ダウンストリームの監視対象タスクの入力として送信します。 C.トレーニングセットのラベル付きクレームに分類モードのAmazon SageMaker BlazingTextを適用して、準拠ラベルと非準拠ラベルにそれぞれ対応するクレームの機能を導出します。 D. Amazon SageMaker Object2Vecをトレーニングセットのクレームに適用します。派生フィーチャスペースを、ダウンストリームの監視対象タスクの入力として送信します。

回答

1) A – Amazon SageMaker Pipeモードは、データを直接コンテナにストリーミングします。これにより、トレーニングジョブのパフォーマンスが向上します。 (サポート情報については、このリンクを参照してください。)パイプモードでは、トレーニングジョブはAmazon S3から直接データをストリーミングします。ストリーミングにより、トレーニングジョブの開始時間が短縮され、スループットが向上します。パイプモードでは、トレーニンインスタンスAmazon EBSボリュームのサイズも削減します。 Bはこのシナリオには適用されません。 Cはストリーミング取り込みソリューションですが、このシナリオには適用できません。 Dはデータ構造を変換します。

2) A – 2つの文、8つのユニークなユニグラム、8つのユニークなバイグラムがあるため、結果は(2,16)になります。の フレーズは「下の番号に電話してください」と「私たちに電話しないでください」です。それぞれの単語(ユニグラム)は、「お願い」、「電話」、「the」、「番号」、「下」、「do」、「ユニークなバイグラムは、「お電話ください」、「お電話ください」、「番号」、「下の番号」、「お願い」、「しない」、「電話しない」、「 tf–idfベクトライザーについては、このリンクで説明しています。

3) B – AWS Glueは、サーバーレスであり、インフラストラクチャの管理を必要としないため、セットアップとメンテナンスの必要量が最も少ないため、正解です。サポート情報については、このリンクを参照してください。 A、C、およびDはすべて問題を解決できるソリューションですが、構成にはより多くの手順が必要であり、実行と保守にはより高い運用オーバーヘッドが必要です

4) B –損失関数は非常に曲線的であり、トレーニングが行き詰まっている複数の極小値を持っている可能性が最も高い。バッチサイズを小さくすると、データサイエンティストは確率的にローカルミニマルサドルから抜け出すことができます。学習率を下げると、グローバル損失関数の最小値をオーバーシュートできなくなります。説明については、このリンクのペーパーを参照してください。

5) D – The following calculations are required:

6) B –クラスの確率のしきい値を下げると、モデルの感度が高くなるため、より多くのケースをポジティブクラスとしてマークします。この場合は不正です。これにより、不正検出の可能性が高まります。ただし、精度を下げるという代償が伴います。これについては、このリンクのホワイトペーパーの「ディスカッション」セクションで説明しています。

7) C –完全に設定されていないデータセットの場合、Synthetic Minority Over-sampling Technique(SMOTE)は、合成データポイントをマイノリティクラスに追加することにより、新しい情報を追加します。このシナリオでは、この手法が最も効果的です。サポート情報については、このリンクのセクション4.2を参照してください。

8) D –教師あり学習を使用して、他の特徴の値に基づいて欠損値を予測します。教師あり学習アプローチによってパフォーマンスが異なる場合がありますが、適切に実装された教師あり学習アプローチでは、応答AおよびCで提案されているように、平均または中央値近似と同等以上の近​​似を提供する必要があります。欠損値の代入に適用される教師あり学習はアクティブなフィールドです研究の。例については、このリンクを参照してください。

9) B –この場合、完全なレビューの要約には通常、レビュー全体の最も記述的なフレーズが含まれており、欠落している完全なレビューテキストフィールドの有効な標準入力です。サポート情報については、このリンクの1627ページ、およびこのリンクとこのリンクを参照してください。

10) D – Amazon SageMaker Object2Vecは、WordsのWord2Vec埋め込み技術を、文章や段落などのより複雑なオブジェクトに一般化します。教師あり学習タスクは、ラベルが存在するクレーム全体のレベルにあり、単語レベルで使用可能なラベルがないため、Word2Vecの代わりにObject2Vecを使用する必要があります。サポート情報については、このリンクとこのリンクを参照してください。