※ 毎朝、5分ほどで読める書籍の紹介記事を公開します。
※そのままの文章ではありませんが、試し読みする感覚でお楽しみください。
目次
はじめに
人工知能ブームの裏側で日夜粛々と構築されている機械学習モデルは、データとパラメータを最小化する計算によって生まれます。
このモデルの良し悪しを見分けるための基準が評価指標です。
評価指標が定まっていればデータサイエンスの問題を解き、良い機械学習モデルを選ぶことができます。
データサイエンスはビジネスの外側にあるものです。評価指標はデータサイエンスとビジネスを繋ぐ橋渡しをする役回りがあります。この手段こそ、本書の中心的なテーマです。
書籍情報
評価指標入門
データサイエンスとビジネスをつなぐ架け橋
第1刷 2023年3月3日
監修 (株)ホクソエム
発行者 片岡巌
発行 (株)技術評論社
装丁・本文デザイン 図工ファイブ
DTP BUCH⁺
担当 高屋卓也
制作協力 江口哲史
印刷・製本 日経印刷(株)
ISBN 978-4-297-13314-6
総ページ数 261p
高柳慎一 統計科学博士。
長田怜士 機械学習を用いた機能開発に携わっています。
技術評論社
何と比較して評価するのか
「最近見た他の映画よりとても面白かった」
会話では省略されがちな比較対象が何なのかを推測する能力に、人は優れています。
しかし、機械学習モデルでは、何に比べて比較するかを明示する”ものさし”を設定しなければなりません。同じものさしで測かる必要があるのです。比べるものを明示していないと、結論がまるっきり違うものになってしまいます。
「今日の東京はサハラ砂漠より暑い」というのは、ナンセンスなのはわかるでしょう。形容詞は何かと比べて初めて意味を持つくらいの認識が必要なのです。
「面白い」のものさしを決めるときに自由度があります。自己満足的によいモデル作成できたとしても、それが適格な比較対象として機能しなければ、ビジネスの成果につながりません。ビジネスにおいては、「他の部署に比べて」などの満たす要件に比べて良い評価でなければ使いものにならないのです。
回帰とは
機械学習における回帰とは、連続値を予測することです。
y=f(x)+ε
連続値を予測する例は以下の通りです。
- 株価予測
- 売却益の最大化を狙うもの
- 入力値:過去の株価データ、各種経済指標、各企業の財務指標
- 予測値:翌日の株価
- 需要予測
- 商品の欠品や廃棄による損失を防ぐことを目的
- 入力値:販売実績、気象情報、販促情報
- 予測値:翌日の商品発注数
- 住宅価格予測
- 住宅価格を予測するもの
- 入力値:築年数、面積
- 予測値:住宅価格
連続値yを予測するモデルです。一次関数f(x)を定義する変数(入力値)を決めてあげることで、予測値を学習していきます。
株価の自動売買
株価や通貨の自動売買に取り組んでいたとします。
投資対象となる銘柄の未来の値を予測して、値段が上がると予測すればその銘柄を購入し、値上がりしたタイミングで売却します。
回帰として設定することは可能です。しかし、一旦落ち着いて、回帰祐で予想しようとした場合の難しさについて考えてみましょう。
未来の値段を正確に当てるということは、目的変数連続値なので取りえる選択肢が多数存在することを意味します。
それよりは、数日後に値上がりしているかどうかを当てる予測をつくるのが簡単です。
投資対象の問題設定では、上がるか下がるかを解くアプローチを造るのが、現実味があります。
データセット
顧客層をグループ化する作業を助けるために、データセットを活用するとします。
年齢、性別、興味、消費習慣といったデータを持って、これらの属性をグループ別に定義して結果を予測するモデルが考えられます。
顧客属性のデータセットを以下に挙げます。
- ID:顧客番号、顧客ID
- Gender:性別
- Ever_Married:既婚、未婚
- Age:年齢
- Graduated:既卒かどうか
- Profession:職業
- Work_Experience:業務経験年数
- Spending_Score:支出のスコア
- Family_Size:家族の人数
感想
サイト管理人
ガチの評価指標モデルをつくる書籍です。
途中でプログラムコードを使った解説があります。
マジのオブジェクト指向に頭を切り替えて読み進めていきました。普段と違う脳みそを活用したような気がして、たまに違う思考に触れないと理解できない領域が増えていく感覚を感じました。
あまりにも偏った考え方をしていると、やっぱり頑固に近くなるのだと思います。まさか、データモデルの書籍で感じるとは思いませんでした。
回帰モデルの究極をAIだと考えると、多岐がある人間に近づくには現実的ではないかもしれません。ただ、瞬時に簡単な未来予測ができるのは、判断の助けになるほか、自動化するのに役立ちます。
更なる良質な評価指標モデルが作られれば、生活が更に便利になることは間違いないでしょう。
この本を読むだけで疲れてしまいましたが、この界隈の話を理解できる頭の持ち主に便利なツールを開発してもらいたいと思います。
下にリンクを貼っておきますので、本書の購入を検討してみて下さい。
購入リンク
紙
※amazonの商品リンクです。画像をクリックしてください。
電子
※amazonの商品リンクです。画像をクリックしてください。