教育カリキュラムについて(データサイエンティストやエンジニアリングマネージャーに役立つ書籍50+1冊)
私は企業の育成担当として、今まで10人以上のデータサイエンティスト・エンジニアリングマネージャーをマンツーマンで育ててきました。 その時に、どの企業にいても、私が1on1で読んでもらう(一元化)のがこのページです。どなた […]
私は企業の育成担当として、今まで10人以上のデータサイエンティスト・エンジニアリングマネージャーをマンツーマンで育ててきました。 その時に、どの企業にいても、私が1on1で読んでもらう(一元化)のがこのページです。どなた […]
kerasでLeNetを作ります。偉人に経緯を表し、歴史の勉強をさせていただいております。 kerasとは、2022年現在はtensorflowの文法のことです。LeNetとは、FacebookのVice Preside […]
「機械学習にルベーグ積分(測度論)は必要か?」 これは使い古されてきた疑問です。 ベイズにしろ、有限時間で終わらないデータ(確率過程)にしろ、ルベーグ積分があった方が良い(十分性)は明らかです。では必要とまで言えるのか。 […]
ネット上では日に日に嘘情報が増してきています(ポストトゥルースの時代) 中にはいろんな意見があるトピックもあるでしょう。しかしほとんどは数学であり、真実はたったひとつです。 リンクを貼るだけで論破できる便利な世界を目指し […]
この記事では、「統計検定3級」を会社で教えたときの経験から、勉強方法を解説しています。 3つの公式 統計検定3級は、ほぼ数式を使わないで解けるようになっています。 わかりやすく言うと、「文系の高校生向け」。 でも、経験上 […]
問題 ある工場の製品を100個仕入れたところ、不良品は10個であったが、工場は不良品率は5%だと主張している。 工場がウソをついているか、有意水準5%で仮説検定せよ。 解答 H0(帰無仮説) : p<=0.05 H […]
先日、東大ドリームネットで話す機会をいただきました。テーマは 「自分と社会の接点をどうデザインするか」 その時の原稿です。 “スーパーボールのように跳ねろ” 自分はなんというか、一切の計画をしない […]
統計検定2級2021年過去問の解説です。 公式リンク 問題(2021年6月20日) 回答 解答と解説 問1 1 1 解説 問2 2 2 解説 問3 3 2 解説 問4 4,5 3,1 解説 問5 6,7 5,4 解説 問 […]
強化学習の目的はポリシーの学習であり、機械学習のように予測を目的としていない。 数学的には、単に不動点定理を適用しているに過ぎない。 そこで、やや抽象的ではあるが、強化学習の1iterationの手続きは、下のように3段 […]
どんな確率分布でも(一部条件付き)、以下の不等式が成り立つ。これらの不等式は、機械学習の理解に役立つことがある。 チェビシェフの不等式 期待値から離れる確率は小さい。 マルコフの不等式 確率変数が期待値より大きくなる確率 […]
36歳、物理からAIに転向して8年になります。東大の学生たちにアドバイスを話した日の夜、自分が東大入学時に生協で買った本を思い出しました。 中谷さんが37歳の時に学生向けに書いたそうです。 「とにかく勉強しろ」の一点張り […]
キタノはいい。キタノには捨てる部分が無いと言われている。 第1作「この男、暴力的につき」 好き度 ⭐️⭐️⭐️⭐️⭐️ 冒頭の暴力的シーンが良い 北野武がいい 白竜がいい 音楽が役2つぶん2種類しかないのがいい 北野武が […]
TL;DR 書きながら走る方針 時間割 Day1 Tutorial 2021/8/14 Day2 Workshop / ADKDD Day3 Opening / Keynote / Research / Applied […]
Statistical Rethinkingの日本語版が無いので日本語情報を書いてみました。Statistical Rethinkingは「統計を考え直そう」という意味です。Rとstan(rstan)で実用的なベイズ推定 […]
「マクスウェルの悪魔」「熱力学第二法則」という言葉を聞いたことはないだろうか。 「部屋に閉じこもっていても酸素がゼロにならない」ことや「磁石にN極とS極があって、磁石を2つに割ってもまた磁石になる」ことを不思議に感じたこ […]
ノーベル賞 ハーバートサイモン(ノーベル賞)という学者がある時考えた。 「我々はエアコン環境下で暮らしており、食べる料理も、思考に使う記号も、あらゆる身の回りのものが人工物である。どうして科学は自然法則のみを探求してきた […]
具体的に並列計算とは何を指すのか 並列計算についてはThread(Java)から数えても20年立っており、生半可な知識で語るとマサカリが飛んでくるようなトピックです。使ったことがあると自信を持って言えるものについてだけ語 […]
CVPR2020にリモート参加した。時差があるので夜中の1:00に始まるので大変だった。CVPR自体は3日だが、前後にWorkshopが付いており、合計6日参加した。 費用は非会員なので$350だった。安い。知の交流を守 […]
あなたがサイトを作る意味 どんな学問でも出版された教科書は溢れているけど、学問を解説したWebサイトはもっと増えた方がいいように思う。Wordpressを使い、あなたの知を共有しよう。既存のメディアには問題がたくさんある […]
教科書 データサイエンティストに統計検定は必須です。売上を伸ばす施策では機械学習より統計が役立つケースもあります。スキルとキャリアを考えるきっかけに。 統計検定の教科書は公式本です。これを完全理解すれば受かります。 過去 […]
画像認識AI歴数年のエンジニアによる入門記事です。物体認識について、初期のアルゴリズムから2020年ぐらいのDeep Learningまでカバーしています。(会社の仕事内容・独自技術・特許は秘密) ※長くなったのでまとめ […]
標本平均の秘密 標本平均とは、データ(d_1, d_2, …, d_n)に対し、和をnで割ったものです。私たちはあまりに標本平均に慣れすぎているので、それを使うのが正しいことを疑うことはないのですが、数学的に […]
何が問題なのか 前にMath Powerというイベントで発表させていただいたのだが、Seq2Seqというディープニューラルネットワークは四則演算を学習できる。これは、Seq2Seqが”Domain Indep […]
何が問題なのか どうでもいいことが気になって仕方ない。 LSTMは宇宙の真理を表しているのは周知の事実だが、果たしてsin波を学習することは出来るのだろうか。出来るに決まってるだろうって?いやいや、それは誤解だ。Seq2 […]
根本的な疑問 ResNetのshortcut(short circuit)は層をディープに(152とか)するためのものだが、ふと浅くしたらどうなるのだろうと思った。浅くしたら、resnetの理論の証明が可視化できるのでは […]
中学に入学すると、ミズグチという奴がいた。ヤツは12歳の若さで「パーセプトロン」にハマっていた。これが俺とAIとの出会いだ。 2年後、彼とアキモトとスーパーコンピューターコンテストに出たとき、ツチオカという数学者がいた。 […]
なるほど、人生には古い環境で古いOpenCVをビルドしなきゃいけないこともあるのか。 まず、古い環境はapt-getしても何もないことがある。repositoryが消えているわけだ。そうなったら諦めるしかない。 また、古 […]
http://tinyclouds.org/residency/ node.jsを発明した人が1年Googleにフルタイムで滞在した時の話。 Deeplearningを簡単という人が言うけど、やっぱ難しいよなぁ。コモディ […]
AlphaGoを構成するブレイクスルーは何か? まずは「1手先を読む」タスクに寄与したもの CNNを使ったこと(教師あり学習でランダム比140倍の性能) バリューネットワークという、世界初の囲碁の評価関数の導出 しかしな […]
今年(1/1〜2/28)一番感動した論文である「足し算をする機械」をコードをパクって実装することができた。感動である。途中いろいろ苦労したので、メモを残した。 この機械は、繰上げや2桁の数、二項演算といった概念形成をする […]
前のポストで層について語らせてもらいました。 【機械学習の真髄】代数幾何(1):構造層とは 【機械学習の真髄】代数幾何(2):構造層を使って空間を超回復する これ、ブログじゃ書き終わんないし、このままじゃ面白さが伝わらな […]
ワークフロー Audioファイルの蓄積 特徴抽出 音響モデルの構築 言語モデルの構築 出力 sEnd-to-End Modeling 通常必要とされる途中過程(GMMとかHMMとか)をすっとばして、特徴ベクトルから直に音 […]
大前提 ※この記事を読むためには直感的に認めてもらわなければ困ることが7点もあります。 全ての集合には、その上の実数値関数が考えられる ということを、まず認めたい。 ある点xに対して任意の実数を対応させることは当然可能。 […]
Appleの初期のCMにも使われた「1984年」。 ※ネタバレあり
はじめに 統計検定全体のチートシートはこちらです。 ノンパラメトリック検定とは何か。それは、「どんな分布でも使える検定」。だから、得られる結論は薄め。 基本 どんな分布でも計算できる統計量を作る→正規分布近似→z検定 チ […]
結論(N+2): N+2 1兆件を処理することがコアコンピタンスになるソフトウェアを作る。
同僚のS(名誉のため伏字)と開催している”未来戦略会議”の結論が意外に面白いのではないかとふと思い、淡々と書き記しておくことにした。もとはvarlog.jarの機能の未来につけるものを決める会議だったが、こうなってしまっ […]
概要 約30週間、社内で20人ほどでScala勉強会を開催し、通称コップ本を読破しました。 何と言ってもScalaという言語の作者が書いた本です。これが一番いいだろうということで選びました。 結果、脱落者が出るわ出るわ。 […]
はじめに 理系の大学院を2011年に出た人かつpython嫌いなのでバイアスがかかってたらごめんなさい。言語としてはscalaが最強。python1.0が出た当時から生きている老害です(釣り) 背景 2016年現在、機械 […]
概要 正規分布の場合、x^nを積分しなくても、母関数をn階微分しなくても、原点周りの高次モーメントが順次求まります。 3次モーメント・4次モーメントのみ前回解説済み。 本題 前回、正規分布の3次モーメントE[x^3]は […]
※統計検定チートシートはこちら 概要 正規分布の3次モーメントの楽な計算法。 大学2年生の2学期に、「物理数学」という授業で習った方法。職場であまり知られてなかったのでメモ。 ただし厳密には微分形式の可積分性(高次元の微 […]
§1-2 of “Information Theory, Inference and Learning Algorithms”/David Mackay ハードディスクの限界の続き もしかして、繰り返しコーディングの欠点 […]
§1-1 of “Information Theory, Inference and Learning Algorithms”/David Mackay 通信路符号化問題 この本の最初のトピックは […]
Scalaの言語としての利点を1つ学びました。 トレードオフ 昔Nカタさんという職場の先輩に次のようなことを習いました。 人間にとっての理解しやすさ goto < for < 再帰 < fold got […]
10分ぐらいで、Jenkinsをインストールし、初回ビルドとJUnitテストを行います。 環境 Linux (なんでも良いと思います。一応この記事ではLinux mint Mate 17.1) 必要なもの Oracleの […]
Sparkに興味があり、その開発スキルを短時間で身につけたいと考え、Cloudera社の3日間の研修に行かせて頂きました。 この研修は座学半分、ハンズオン半分の研修で、Cloudera社に直接質問できるメリットがあります […]
もの凄く面白い本に出会ったので紹介します。 「この本では、やさしい計算だからという理由でその前提が成り立たない場合にも誤って応用されてきた理論の限界を述べ、反対に数理が必要になるという理由で実用上大切であるにもかかわらず […]
今回の目的 前回作ったデータでは、Soft K-means法のほうがHard K-means法よりも劣った性能を出してしまったが、それは理論の予測どおりだった。 MacKay Information Theory, In […]
標本平均は正規分布に従う 中心極限定理という有名な定理があります。 中心極限定理(wikipedia) 母集団の分布がある条件を満たす分布であれば、標本平均(いくつかサンプルをとって平均を取ったもの)を標準化したものは、 […]
Latent Dirichlet Allocationを提案したBleiの論文のAbstract~Section 1を和訳したものです。原論文はgoogle scholarで読めます。(リンク) 原論文:Abstract […]
今回の目的 前回書いた、2次元データに対するHard K-means法のプログラムを拡張し、Soft K-means法(exponential decay)に変形する。 Soft K-means法は定義からはHard K […]
今回の目的 Hard K-means法をすらすら書けるようになって、より理解したい。 Hard K-meansとは? K平均法 教師無し機械学習法の一種です。1957年に発見されたので、ほぼ60年間も使われ続けていること […]
英語の単語を頻度順に並べると、ある法則に従うことが知られています。 すごくないですか?これをZip則といいます。(べき乗則とも、ロングテールとも言います) 問題は、このZip則のエントロピーを計算することです。これはHa […]