ai_math_runningのブログ

最近はAI関係の記事が多い予定です。一応G検定持ってる程度の知識はあります。

DXには2つの方向性があり、それは基本的に異なる方向のものだが、しばしば混同される

DX、相変わらずブームですね。
japan.zdnet.com
こんな記事にもあるように、大企業のトップも様々なDXへの取り組みを語っていたりします。
ただ、DXが何を意味するかについては、あいまいだな、と思ってしまいます。

どうして、世の中で語られるDXというのが、こんな漠然としてしまっているか。
私が思うのは、タイトルにも書いた通り、
DXと言う名の元に、2つの全く異なる方向性のものが一緒くたにされていて、それが混同されているがために、ややこしい事になっているのではないだろうか。

という事で、今回はその辺りを整理する話を書こうと思います。

DXに含まれる2つの異なる方向のものとは

DXには2つの方向があると思います。それは、

  1. コンピュータを使って従来のタスクを自動化したり省力化したりする事
  2. 数学的な解析・計算を行い、それを意思決定に役立てる事

この2つは、基本的には異なる方向のもので、必要なものやスキルも全然違っているのですが、「コンピュータを使う」という事のみで強引に結び付けられてしまったのがDXなんだと思います。

まず、この2つの方向について簡単に説明します。

コンピュータを使って従来のタスクを自動化したり省力化したりする事

1つ目の方は、割とイメージしやすいのではないかと思いますが、ちょっとした例を挙げてみましょう。
個人事業主でBtoBで仕事をしている人にとって、請求書を書くというのは、絶対に必要ではありますが、それなりに面倒な業務ではあると思います。
人によっては、月末に丸一日かけて請求書作成の作業をまとめてやる人もいる事でしょう。
この請求書作成の作業を自動化したり省力化してくれるソフトがあったなら、その時間に別の仕事をする事もでき、より儲ける事ができるでしょう。
これが、1つ目の「コンピューターを使った従来タスクの自動化・省力化」です。

数学的な解析・計算を行い、それを意思決定に役立てる事

こちらの方も、簡単な例を挙げてみます。

車で移動する時、目的地によっては、高速道路を使った方がずっと速く付く事があると思います。
また、高速道路を使うと信号で止まる事がないため、ガソリンの使用量も減る事になります。
しかし、高速道路の使用には、当然の事ながら、高速料金がかかります。
なので、贅沢して高速道路を使うか、節約して使わないか、迷う事も多いかもしれません。

その時に、高速道路を使う事で、時間がどれだけ節約できるか、
また、使うガソリンの量もどの程度変わってくるか、を調べてあげると、
ガソリン代の違いや節約できた時間を高速料金を定量的に比較する事ができます。
例えば高速料金が1500円で、ガソリン代が700円くらい違ってきた場合、かかるお金が高速道路を使った方が800円多い事になります。
一方、高速料金を使うと1時間速く着くなら、高速を使って余分にかかる800円で、その1時間を買ったと考える事ができます。
それが高いと思うか、安いと思うかは、個人の価値判断によるでしょうが、漠然と迷っていた時よりは、明確な根拠の元に意思決定ができると思います。
これは、「数学的な計算を意思決定に役立てた」事になると思います。

両者が混同されたがための悲劇

ここまでの説明で、DXに含まれる2つの方向は、基本的に異なるものだと言うのが理解できると思います。
なので、2つの方向は、必要なスキルもツールも異なります。

「自動化・省力化」の方は、自動化や省力化のツールが必要であり、必要なスキルは、ツールについての知識やノウハウだったりプログラミングの能力だったりするでしょう。
ちょっと前に流行った「Power Automate Desktop」だったり、今注目されているChatGPTなどの生成AIも、こちらの方向で役立てる事を期待されているでしょう。

一方、「数学的解析」の方で必要なスキルは、プログラミングよりも、数学についての深い理解の方が重要だったりします*1。必要なツールも、ChatGPTは信頼性が低いので使用は推奨されず、データ分析専用のソフトなどを使う方が良いでしょう。Excelでもある程度の解析はできますが、専用のソフトの方が、より多くのことがやりやすいはずです。
(BIツールというのは、基本的にはデータ分析ツールだと思います。使った事はありませんが。)

しかし、両者が混同されていると、
自動化が期待されている場面で、人材に機械学習やデータ分析の研修を行なったり、
数学的な解析が必要なのに、自動化のツールを揃えたりしてしまったりします。
特に、人材スキルのミスマッチは、担当者にとって大きな悲劇となってしまいます。
また、片方が得意な人間に、両方をやる事を期待してしまう事も多そうです。

なので、DXというときには、この2つの方向がある事を理解し、両者をしっかりと区別する事が重要ではないかと思います。
個人的には、2つの方向それぞれに新しい言葉を割り当ててあげた方が、誤解が少ないのではないかと思っています。

*1:プログラミングもできるに越した事はないですが。特に機械学習ディープラーニングをやるにはpythonが必須だったりしますし。

「p値とは何か?」を説明できますか

この記事の概要

  1. p値を理解するには統計学の基礎知識が必要
  2. 統計学は「自然界の現象にはばらつきがあり」「測定値には誤差がある」から必要
  3. 知りたい事・言いたい事に対し「逆の事」を考える
  4. その「逆の事」が正しい確率がp値
  5. p値が十分に小さければ「逆の事」は滅多に起こらないので「言いたい事」が言える

この記事のお題

今日のお題は、こちらの記事についてです。
diamond.jp
まず、その前に、この記事の前の記事が素晴らしかったんです。
【「0.05」の謎】統計学好きでも意外と知らない「統計的に有意」の本当の正体 | Science Fictions あなたが知らない科学の真実 | ダイヤモンド・オンライン
なので、その記事のブクマに次のようなコメントを書きました。

良記事。有意差の基準は便宜的なものというのは大抵の教科書には書かれていないし、ぼぉっと勉強してると疑問にも思わないだろう。実は計算手順よりこういう話の方が重要。計算はコンピュータがやってくれる訳だし。

その続編の記事だったので、期待していたのですが、ちょっと期待はずれだったかな。
というのは、p値の説明としては、これじゃぁ分かりにくいだろう、と思ったので。
なので、p値の説明を試みてみようと思います。

p値の説明に必要な事

まず、ブクマには書きましたが、お題となった元記事の説明は、間違ってはいません。
ただし、元記事の説明で理解できる人は、そもそも読む前からp値について理解していた人じゃないかと思うんです。

というのは、p値の理解のためには、特に2つの統計の基礎知識が必要だと思うのですが、
その説明が不十分なんです。
なので、この記事では、そこを補いたいなと思います。

統計学はなぜ必要なのか?

そもそも、統計学なんて、ややこしいものが、なぜ必要なのか、という話から始まります。
それは、2つの要因があって

  • 自然界の現象にはばらつきがある
  • 測定値には誤差がある

これによって、多くの物事では、実は正確な値というのは分からない訳です。
(逆に、ばらつきや誤差がなければ統計なんてものは不要で、ただ測定して比較すれば良いだけになります。)
そこで、複数回測定する事で、正確な値を推測しよう、というのが統計学の役割です。

元記事の例で言えば、スコットランド人の男性や女性の身長には個人差があります。
なので、1人だけ取り出して比較した場合に、たまたま女性の身長が男性より高いという事も起こる事があります。
ただ、その1サンプルを持って、「スコットランド人は男性より女性の方は身長が高い」なんて言えない訳ですよね。
というのも、個人差・ばらつきのある人の身長を1人ずつ比較しても、偶然背の高い人を調べていたり、逆に背の低い人を調べていたりしているかもしれないからです。
そこで、男女とも、ある程度の人数の人を選び出して、集団として比較する必要があります。
その時の「集団として比較する」方法が統計学になります。
なので、統計学は、「ばらつきがあるから必要」というのがポイントになります。

言いたい事を言うために逆の事*1を考える

元記事の例だと、
スコットランドの男性はスコットランドの女性より背が高い」
というのを言いたい訳ですね。
その時に、その逆のこととして
スコットランドの男性と女性の身長に差はない」*2
と言う事を考える訳です。

なんで、そんなややこしい事をしているのか、と思われるかもしれません。
これって、数学では実は常套手段なんです。
例えば「背理法」というテクニックがあって、
「ある事を正しい」と言うために、逆の事を考え、逆の事が間違っていると示す事で、元々言いたかった事が正しい事を証明します。
逆の事の方が考えやすい、というのは頻繁にあって、そういう時に、このテクニックを使うと簡単に問題が解けたりします。
統計学の場合も、似たようなテクニックを使っている訳です。


この2つの事(ばらつきがあるから統計が必要 / 言いたい事と逆の事を考える)を踏まえると、
p値がどういうものか、というのが、ぐっと見通しが良くなります。

「p値」とは「逆の事」が正しい確率

それで、p値の事に話は戻るんですが、大事な事は、もう8割方、説明は終わっています。
p値の定義、それは、見出しにも書いた通り、
「言いたい事と逆の事」が正しい確率
になります。

元記事の例で言うなら、
スコットランドの男性と女性の身長に差はない」というのが正しい確率が、p値になります。
そして、元記事では、それが3%だと言うんですね。
それは、どういう事かと言うと、

男性だろうが女性だろうが、身長にはばらつきがあるため、選び方によっては、背の高い人を多く選んでしまったり、逆に背の低い人を多く選んでしまう可能性がある。
なので、男女の身長に差がない場合も、選び方によって「男性の方が平均で10センチ高くなる」事も起こってしまうかもしれない。
ただし、その確率は、数学的に計算できて*3、その確率は3%になる

という事です。

この3%をどう評価するかは、微妙な所ではあるのですが、十分に小さいと見なしても良いのかな、と思います*4
つまり「差がない確率は小さい」、つまり「差がある(男性の方が有意に背が高い)」と考えて良いでしょう、という事です。

逆に言うと、この結果を持って
スコットランドの男性はスコットランドの女性より背が高い」
と言うのは、間違っている確率が3%ある、という事です*5
p値とは、そういう数字なんですね。
だから、元記事にも書いているように、「p値は低ければ低いほど好ましい」訳ですね*6


以上が、p値の説明になります。
あまり長くなると読むのが大変になるので、p値が何かをざっと掴むのに要らない知識は、かなり思い切って省いています。
この記事で、統計に興味を持った方は、是非とも統計をしっかり勉強して欲しいです。

*1:統計の用語では「帰無仮説」と言います。

*2:逆というと「女性の方が高い」となりそうですが、統計学のテクニックとして「同じ場合」を考えます。

*3:これは「同じである」という仮説にしたからこそ計算できる訳です。詳細を知りたい人は統計学を勉強して下さい。

*4:一般的な統計解析では、有意水準は5%にする事が多いです。つまり5%より小さければ、十分に小さいと考えています。

*5:この「間違っている確率」を「第1種の過誤」と言います。

*6:元記事の1つ前の記事にある「有意水準は恣意的に決められただけだ」と言うのは、これを踏まえれば理解しやすいと思います。

「きょうだいベイズ問題」を説明する

少し前にはてなブックマークの人気記事に次のような記事が挙がっていました。
chieosanai.hatenablog.com
この記事、私もブコメしたんですが、ブコメを見ると2/3派の人がかなり散見していました。
b.hatena.ne.jp
ただ、ブコメでも指摘しているように、2/3派の人は根本的な勘違いをしているようなので*1
それについて、ちょっと丁寧に説明してみます。

確率の定義

多くの人*2は、いわゆる「古典的確率」で確率の定義を理解していると思います。
つまり、

全ての場合の数に対する、対象事象の場合の数

これが多くの人の理解している確率の定義です。

少し例を挙げましょう。
サイコロは、6つの面があり、それぞれの面に1から6までの数字が割り振られています。
そして、サイコロを振った時に、その目が偶数になる確率を求めます。
その時は、

  • 全ての場合の数:6通り
  • 偶数になる場合の和:3通り(2, 4, 6)

なので、偶数になる確率は、3/6 = 1/2
として求められる訳ですね。
多少複雑になっても、この延長線上で確率は求められる訳です。

重要な前提

ただし、古典的確率についてのWikipediaの記述にもあるように、この求め方をするには、1つ重要な条件があります。それは、

起こりやすさに差異が認められない全ての場合の数

つまり、分母にする「全ての場合」は、同じ確率で起こるものでないといけない訳です。

同じ確率で起こらない事例

盛山サイコロ

朝の番組『ラヴィット!』において、「盛山サイコロ」なるものが偶に出て来ます。
『ラヴィット!』を知らない人向けに説明すると*3
ラヴィット!では美味しい食べ物の試食が度々行われますが、それを是非とも盛山さんにやってもらいたいと願った番組スタッフが技術の総力を結集して特殊なサイコロを作成します。
そのサイコロは、6面中5面が盛山さんになっていて、盛山さんが当たる確率は5/6になっています。
しかし、実際にそのサイコロを振ってみると、何度やっても盛山さん以外の面が出てしまいます*4

要するにイカサマなんですが、盛山サイコロほど極端ではなくても、中の重心を変えたりして出る目の確率に差がでるように細工したイカサマなサイコロというのは作る事ができて、そのサイコロを使うと、「古典的な確率」の求め方で求めたものとは異なってしまう訳です。当然、偶数が出る確率も変わってくるでしょう。

重要な教訓

この場合はイカサマですが、古典的確率の手法で確率を求める時は、分母にする全ての場合がちゃんと同じ確率になっているかをチェックする習慣を付けた方が良いと思います。

きょうだいベイズ問題:2/3派の主張

で、「きょうだいベイズ問題」に移りましょう。問題はこういうものだそうです。

2人きょうだいの子供のうち、1人が男の子の場合、もう1人が女の子である確率はいくらか?

これについての2/3の説明は以下のものだそうです。(ちょっと表を書き換えています。)

2人兄弟の場合は以下の表のように、4通りある。

j k l m
older
younger

問題の条件からどちらも女性のペアである m は除外できる。
全パターンは j と k と l の3パターン。
そのうち特定の事象のパターンは k と l の2パターン。
ゆえに 2/3 。

他にも色々な論法を振り回す人は現れますが、2/3と主張している人は、基本的にはこの考え方に依拠していると思われます。

きょうだいベイズ問題:2/3派の主張のおかしな点

さて、この論法に対して、私は正面から反論しようと思います*5

上記、2/3派の主張は、古典的確率の手法で確率を求めています。
しかし、その場合は、分母にした全ての場合、この場合は「 jkl の3パターン」が、本当に同じ確率と見做して良いか、を考える必要があります。

何もなければ、j, k, l は同じ確率でしょう。しかし、その場合はmだって同じ確率です。
しかし、問題の条件からmは除去される訳です。つまり、どちらも女性であるから。
では、kl は、全く除去しなくても良いのでしょうか。

「2人きょうだいの子供のうち、1人が男の子の場合」とやる場合、2人のきょうだいの子供のうちの1人を先に見て、男か女かをチェックしている訳ですね。そして、それが男だった場合のみを考えている訳です。なので、その「先に見た子供」がolderの方なのか、yangerの方なのかをちゃんと区別して考えてみましょう。

そうすると、 先に見る「きょうだい」がolderの場合、k は除去されませんが、l は除去されます。
逆に、先に見る「きょうだい」がyoungerの場合は、k は除去され、l は除去されません。
そして、当然のことながら、どちらも場合もj は除去されず、どちらの場合もm は除去されます。

こう考えるならば、先に見るのがどちらの場合でも除去されない j と、どちらかによって除去される事もある k l とを同じ確率と見做すのは無理があります。
(というか、普通に考えれば jk, l の倍の確率と考えられるでしょう。それなら1/2になるはずです。)

2/3派の主張は、同じ確率で扱うべきでないものを、無理やり同じ確率で扱うために起こった誤解であると考えられます。

追記:元ネタの英語版Wikipediaでは問題文が少し違う

ブコメにこの問題の元ネタだろう、Wikipediaの英語版のリンクが貼られていて、ちょっと読んでみた所、問題文が少し違っていました。

  • Mr. Smith has two children. At least one of them is a boy. What is the probability that both children are boys?

DeepL翻訳

スミス氏には2人の子供がいる。少なくとも1人は男の子である。子供が2人とも男の子である確率は?

で、英語版記事ではこの問題について詳細に論じられていますが、要するに「少なくとも1人は男の子」という条件の与え方に曖昧性があり、それによって答えが異なるはずだ、という事だそうです。

ただ、「2人兄弟の1人が男の子の場合、もう1人は?」というのと、上記設問の条件では、意味合いはかなり異なりますね*6
「少なくとも1人は男の子」という場合、「2人ともチェックして、男が0の場合を除く」という可能性も考えられ、その場合、 jk, l は同じ確率と考える事が可能になります。
一方、「1人が男の子の場合」という場合、先にどちらかを見ていて、その後、もう1人を見るという意味にとりやすくなるでしょう。
「少なくとも」という文言の有無は大きいですね。
もっとも、「少なくとも」とついていても、1人ずつ順にチェックすると捉える事も可能で、それが英語版Wikipediaの「曖昧性」の話になるのでしょう。

*1:なので上記記事の結論は正しいです。

*2:公理的確率なんて大学で数学をちゃんと学んだ人しか知らないですし、しかもそれをちゃんと理解できてる人はさらに減ります。

*3:盛山サイコロでググると違法な動画はいっぱい出て来ますが、リンク貼る訳にはいかないので興味ある人はググってみてください。

*4:実際私もラヴィットミュージアムで何度も振ってみましたが、全て見事なまでに「盛山以外」が出ました。

*5:冒頭のブログ記事は例を出す事で余計に混乱させてるように思えます。

*6:問うているのが男女で異なる事は棚上げしておきましょう。

ChatGPTに統計学を教えてもらったら?

GPT-4が発表されたばかりで間が悪いのですが、
(GPT-4は学問領域の応答能力が大幅に向上したそうで)
ChatGPTに統計学を教えてもらった結果を記事化しようと思います。
統計学にしたのは、私が多少勉強していて、ある程度、正確性を判断できる分野だからです。

(私)

推測統計について教えて。
不偏分散はどうしてn-1で割るの?

「推測統計」って用語を書いてる時点で分かってる人間ですよね。
まぁ、不偏分散がなぜn-1で割るか、というのは典型的な統計の分かりにくい所なので、まずはここを質問、と。


(ChatGPT)

推測統計において、標本から母集団の性質を推測するために様々な統計量が使われます。その中でも、不偏分散は標本分散の一種で、母集団の分散を推測するために使用されます。

不偏分散は、標本の値と標本平均との差を2乗して平均した値であり、以下の式で計算されます。

s^2 = Σ(xi - x̄)^2 / (n - 1)

ここで、xiは標本の値、x̄は標本平均、nは標本サイズを表します。

この式において、分母にn-1を使う理由は、標本が母集団全体を完全に代表しているわけではないため、母集団の分散を正確に推測するには、標本のサイズを1少なくしたn-1で割る必要があるからです。

例えば、標本サイズが小さい場合、標本平均が母集団平均と比べて大きくなりがちです。この場合、分母にnを使ってしまうと、不偏分散が小さく推定され、母集団分散を過小評価することになります。n-1で割ることで、不偏分散が母集団分散をより正確に推定することができます。

う〜ん。色々とツッコミどころがあるなぁ。まぁ、順を追って突っ込んでいきますか。
まず、基本的な所を追加して質問してみましょう。


(私)

どうもありがとう。いくつか分からない事があるので追加で教えて。
まず、母集団って何?

まず、ここを聞くでしょう。

(ChatGPT)

母集団とは、統計的な解析対象となる全体の集合を指します。例えば、ある製品を生産する工場での製品の品質について統計的な解析を行う場合、その工場が製造するすべての製品の集合が母集団に相当します。

しかし、母集団全体を調査することは、実際には困難であり、コストがかかるため、通常は母集団の一部である標本を調査することが一般的です。このため、標本から得られた統計量(平均や分散など)を用いて、母集団の性質を推測することが目的となります。

なお、母集団は時には「ポピュレーション (population)」とも呼ばれることがあります。

ま、ここは良いですね。最後の一節はいるかなぁ? 
ちょっと説明が足りないと思うので、追加して質問してみましょう。

(私)

ありがとう。まだまだ分からない事がいっぱいあるから教えて。
どうして統計から得られた統計量から母集団の性質を推測する事ができるの?

良い質問ですねw

(ChatGPT)

統計から得られた統計量を用いて、母集団の性質を推測する理論的根拠は、大数の法則中心極限定理に基づいています。

まず、大数の法則は、「標本平均は、標本サイズを大きくするほど母集団平均に収束する」という法則です。つまり、標本サイズを十分に大きく取れば、標本平均は母集団平均に近づくということです。このため、標本から得られた平均値を母集団平均として使うことができます。

また、中心極限定理は、「標本平均は、標本サイズが大きくなるにつれて、正規分布に従う確率変数に近づく」という法則です。この定理により、標本平均の分布が正規分布に近づくため、正規分布の特性を用いて、標本から得られた統計量から母集団の性質を推測することができます。

このように、大数の法則中心極限定理によって、標本から得られた統計量を用いて、母集団の性質を推測することができる理論的根拠があります。ただし、標本の選び方や標本サイズ、統計手法などによって、推測結果が異なる場合があるため、注意が必要です。

ここは良い説明ですね。
それで、さらに追加に質問してみます。

(私)

ありがとう。まだ分からない事があるから教えて。
標本サイズを大きくすれば推測できる、という事だけど、どれくらい大きくすれば良いの?
その目安はあるのかな?

これも典型的な初学者が気になる所ですね。「十分に大きくすれば」って漠然と抽象的に言ってるけど、具体的にはどれくらい大きくすれば良いのって。

(ChatGPT)

標本サイズを大きくするほど、推測精度は向上しますが、どれくらいの標本サイズが必要かというのは、具体的な状況によって異なります。

一般的に、標本サイズが小さい場合は、推測結果の信頼性が低くなる傾向があります。そのため、一般的には、標本サイズが30以上ある場合は、比較的信頼性の高い推測結果が得られるとされています。ただし、母集団の分布や特性、統計的手法などによっても異なりますので、必ずしも30以上であれば良いというわけではありません。

また、推測精度を高めるためには、標本をランダムに抽出し、標本サイズを十分に大きくすることが重要です。ランダムに抽出しないと、母集団を代表する標本を得ることができず、偏った結果が得られる可能性があります。

以上のように、標本サイズが十分に大きく、ランダムに抽出された場合には、比較的信頼性の高い推測結果が得られるとされていますが、具体的な目安は状況によって異なるため、注意が必要です。

30って具体的な数字が出てきましたね。でも良いのかな?
ちょっと突っついてみますね。
(ちなみに、サンプルのバラツキが小さければもうちょっと少なくても大丈夫です。
 その辺りは正規分布を仮定して良いなら、正規分布を元に、ある確率範囲内での値の範囲を計算できる、
 というのが正確な答えになるかな。)

(私)

ありがとう。まだ分からないので教えて。
標本サイズが30以上でも良くない場合はどんな場合があるの?

(ChatGPT)

標本サイズが30以上であっても、以下のような場合には十分な精度の推測が得られない可能性があります。

  1. 母集団が非常に偏っている場合:母集団が非常に偏った分布をしている場合、標本サイズが30以上であっても、偏りによって推測精度が悪くなることがあります。この場合は、母集団の偏りを考慮したサンプリングや分析が必要です。
  2. 母集団が分散が大きい場合:母集団が分散が大きい場合、標本サイズが30以上であっても、母集団分布を正確に推測することが難しくなります。この場合は、標本サイズを大きくしたり、推測手法を工夫する必要があります。
  3. 標本自体がバイアスを持つ場合:標本自体が偏っていたり、ランダムに抽出されていなかったりする場合、標本サイズが30以上でも正確な推測ができません。この場合は、より適切なサンプリング方法を採用する必要があります。
  4. 推定する母集団パラメータが複数ある場合:母集団のパラメータが複数ある場合、標本サイズが30以上であっても、正確な推定が困難になることがあります。この場合は、適切な統計手法を選択する必要があります。

以上のように、標本サイズが30以上であっても、様々な要因によって推定精度が低下する可能性があるため、慎重な分析が必要です。

ちょっと説明するために新しい用語が入ってくる感じですねぇ。不親切な気もしますが、質問を重ねてみましょう。

(私)

ありがとう。まだ分からないから教えて。
母集団の偏りを考慮したサンプリングや分析はどんなものがあるの?

上の答えの1つ目の事項について、さらに説明を求めてみます。

母集団の偏りを考慮したサンプリングや分析には、以下のようなものがあります。

  1. 層別抽出(stratified sampling):母集団をいくつかの層に分け、各層からランダムサンプリングする方法です。層別抽出は、母集団の偏りを反映するように各層を設定することで、より正確なサンプルを得ることができます。
  2. クラスター抽出(cluster sampling):母集団をクラスターに分け、ランダムにいくつかのクラスターを選択し、それらから全ての要素をサンプリングする方法です。クラスター抽出は、母集団の偏りを反映するようにクラスターを設定することで、より正確なサンプルを得ることができます。
  3. 重点サンプリング(stratified random sampling):母集団内の特定の部分集合に焦点を当て、その部分集合からのサンプリングを優先する方法です。例えば、製品の欠陥率を推定するために、不良品の数が多い地域からのサンプリングを優先することができます。
  4. 統計的処理(statistical adjustment):母集団の偏りを反映するために、サンプルの結果を調整する方法です。例えば、層別抽出を行った場合、各層のサンプルサイズに応じて加重平均を計算することができます。

以上のように、母集団の偏りを反映するようなサンプリング方法や、統計的処理を適用することで、より正確な推定が可能になります。

これはまぁ、こんなもんで良いか。
じゃぁ次の質問。

(私)

ありがとう。まだ分からないから教えて。
分散が大きい場合だけど、どれくらい大きさまでなら30で十分と言えるの?

2つ前の答えの、2つ目の事項について、さらに説明を求めてみます。

(ChatGPT)

分散が大きい場合、標本サイズが30では十分ではない場合があります。これは、標本サイズが小さい場合、標本平均が母集団平均に近づかないことがあるためです。

分散が大きい場合、標本サイズがより大きくなければならないことがあります。一般的には、分散が大きい場合でも、標本サイズが100以上あれば、標本平均が母集団平均に近づくことが期待されます。

ただし、実際には、分散が大きい場合でも、標本サイズが30で十分な場合もあります。これは、母集団分布が正規分布に近い場合や、標本の大きな外れ値が存在しない場合に限られます。

したがって、標本サイズが十分かどうかを判断するには、母集団の分布や標本の特性などを考慮する必要があります。一般的には、標本サイズが大きいほど正確な推定が得られる傾向があります。

いや、だからぁ、そういう漠然とした事を聞いたいんじゃないのよ。
「どれくらい大きさまでなら」って聞いてるじゃん。
ちょっと質問を変えてみますか。

(私)

ごめんなさい。分からなかった。
分散の大きさから標本サイズが十分かどうかを判断するための具体的な方法が知りたいんです。

(ChatGPT)

すみません、回答が不十分でした。標本サイズが十分かどうかを決定するためには、次の手順に従うことができます。

  1. 標本平均 \bar{x} と標本標準偏差 s を計算します。
  2. 母集団の分布が正規分布に従うと仮定します。これは、標本サイズが十分に大きい場合に成立することが多いです。この仮定に基づいて、標本平均 \bar{x} が母平均 \mu からどの程度離れているかを、次の式で求めることができます。 z=\frac{\bar{x}-\mu}{s/\sqrt{n}} ここで、n は標本サイズです。
  3. z 値が1.96より大きい場合、または-1.96より小さい場合は、有意水準\alpha=0.05 で、母平均と標本平均が有意に異なると判断できます。

つまり、|\bar{x}-\mu|>1.96(s/\sqrt{n}) の場合、標本サイズが十分ではないと考えることができます。

この手順は、中心極限定理に基づいており、母集団が正規分布に近似する場合に有効です。しかし、母集団が正規分布に従わない場合や、標本に外れ値がある場合には、この手順は不適切です。このような場合は、別の方法を使う必要があります。

いきなり数式がバリバリ出てきましたね。微妙に違ってる気もするけど(標本標準偏差を使う場合は正規分布じゃなくてt分布だから1.96じゃなくて、その数字はサンプル数により微妙に違うけどサンプル数30なら自由度29で2.045になる、とか)細かな違いなので、これ以上は突っ込まないでおきましょう。ひとまずは、具体的に計算する方法を説明してきたので。

(私)

ありがとう。もうちょっと教えて。
母集団が明らかに正規分布ではない場合は、どうすればいいのかな。

とりあえず、上記回答は「母集団の分布が正規分布に従うと仮定」した場合なので、そうじゃない場合を聞きましょう。
(しかし「標本サイズが十分に大きい場合に成立することが多い」ってのもどうかなぁ。母集団が正規分布かどうかと標本サイズは無関係なんだけどな。標本平均が正規分布に近づくか、は標本サイズ次第だけども。その辺も不正確なんだよなぁ。)

(ChatGPT)

母集団が正規分布に従わない場合、標本サイズが十分であっても中心極限定理が成立しないため、先程の方法を使うことはできません。

そのような場合は、母集団の分布を推定するための非母集団パラメトリック法や、データ駆動型のノンパラメトリック法が使われます。以下にいくつかの例を挙げます。

  • ブートストラップ法:この方法では、標本から復元抽出を繰り返し行い、標本平均や標本分散などの統計量を計算します。これらの統計量を用いて、母集団の分布を推定します。
  • カーネル密度推定法:この方法では、標本から推定された密度関数を用いて、母集団の分布を推定します。カーネル密度推定法は、非母集団パラメトリック法の一つであり、特定の分布に依存しない方法です。
  • ウィルコクソンの順位和検定:この方法は、データの分布に関係なく、2つの標本間の差を検定するために使われます。標本が正規分布に従わない場合に有効な方法です。
  • クラスタリング法:この方法は、データのパターンや分布を自動的に抽出する方法です。非階層的クラスタリング法の一つであるk-means法は、クラスター数を事前に指定する必要があるため、適切なクラスター数を決定するために検証が必要です。

これらの方法は、母集団の分布を推定するための一例です。適切な方法は、データの性質や目的に応じて選択する必要があります。

中心極限定理は母集団が正規分布でなくても成立するはずですけどね。それはそうと、不偏分散の問題からどんどんズレてきてるので、この辺で収めましょう。
ついでなので、参考図書でも聞いてみますか。

(私)

ありがとう。いっぱい新しい手法が出てきたんだけど、これらの手法を勉強するための良い本はあるかな。

(ChatGPT)

統計解析や推測統計の手法について、入門書から応用書まで多数の書籍が出版されています。以下にいくつかのおすすめ書籍を紹介します。

  1. 統計学入門』(東京大学出版会、松田昭治著):統計学の基礎から、確率分布、推測統計、回帰分析まで、わかりやすく解説された入門書です。
  2. 『基礎統計学』(東京大学出版会、桜井和夫著):統計学の基礎から実践的な問題まで、体系的に解説された教科書です。
  3. 統計学』(東京図書、石原正俊著):統計学の基礎から、実践的な応用まで、包括的に解説された大学の教科書です。
  4. 『データ解析のための統計モデリング入門』(森村 修一、田村 優子著、共立出版):統計モデリングの基礎から実践的な問題まで、体系的に解説された教科書です。
  5. 『Rによるやさしい統計学』(技術評論社、奥村晴彦著):Rを用いた統計解析の入門書です。基礎から応用まで幅広くカバーしており、実践的な問題も多数取り上げられています。

これらの書籍は、統計学の基礎から実践的な問題まで幅広く解説されており、初心者から上級者まで、さまざまなレベルの人々にとって役立つと思われます。また、統計解析においては、実際に手を動かして学ぶことが大切なため、実際にデータを用いた演習問題が多数ある書籍がおすすめです。

ん? 調べてみたけど、著者とか出版社とか出鱈目じゃない? なんだこれは?
ちょっと聞き直してみる。

(私)

ありがとう。ブートストラップ法、カーネル密度推定法、ウィルコクソンの順位和検定、クラスタリング法について勉強したいんだけど、上記の本はこれらの手法について詳しく勉強できるのかな。勉強できないなら、勉強できる本があったら教えて。

(ChatGPT)
>>
Pythonによる統計分析入門」と「統計学入門」は、それぞれブートストラップ法、カーネル密度推定法、ウィルコクソンの順位和検定、クラスタリング法などの手法について詳しく説明しています。特に、「Pythonによる統計分析入門」はPythonを用いた実践的な解説が豊富で、手法の理解と実践に役立つでしょう。また、「Rによる統計学入門」もRを用いた実践的な解説が豊富で、手法の理解と実践に役立つでしょう。これらの本は、統計学の初学者から上級者まで幅広い層におすすめできる本です。<<

Pythonによる統計分析入門」という本は確かにありますね。
Pythonによる統計分析入門 | 山内長承 | 経済学 | Kindleストア | Amazon
でも、目次とか見たところでは、この内容が書かれてはなさそうに見えます。
統計学入門」は該当する本が多過ぎて分かりません。
「Rによる統計学入門」という本もない(微妙にタイトルが違う本はいくつかある)ので、どれを指しているかは分からないです。

という事で、ChatGPTが出してくる参考図書については、かなりいい加減だぞ、という事で、先に進もうと思います。


>>
ありがとう。検討してみる。
最初の不偏分散の話に戻るけど、不偏分散の「不偏」ってどういう意味かな?<<

不偏分散の「不偏」とは、標本から求めた分散が母集団分散を推定するために、バイアスがない(無偏)推定量であることを示しています。つまり、標本から求めた分散が、母集団分散の真の値に近づくように調整されているということです。このように不偏分散は、標本から求めた分散を母集団分散の推定に使用する場合によく用いられる推定量であり、標本サイズが大きくなるにつれて、より正確な推定量となります。

あれ? 何かおかしいですね。不偏性と一致性を混同しているみたいですね。
(参考)
bellcurve.jp

ちょっと、どう誘導したら良いか分からないんですが、ちょっと頓珍漢な質問で誘導してみましょうか。

えっと、ちょっとよく分からないんだけど、標本サイズが大きくなったらnの大きくなるから、nとn-1の差も小さくなると思うんだけど。だから、標本サイズが大きくなるほどn-1にしなければいけない理由が減るんじゃないのかな。

確かに、標本サイズが大きくなるほど、nとn-1の差が小さくなるため、標本分散を不偏分散で補正する必要がなくなるという意見もあります。しかし、不偏分散を使う主な理由は、標本分散が母集団分散を過小評価する傾向があるからです。

標本分散は、標本から求めた値であるため、母集団分散よりも小さくなる可能性があります。この場合、標本分散を母集団分散の推定量として用いると、母集団分散を過小評価してしまうことになります。不偏分散は、このような過小評価を防ぐために、標本サイズを考慮した補正を行うことで、母集団分散の推定により適切な値を得ることができます。

つまり、標本サイズが大きくなることで、不偏分散の補正が必要な場合が減るということはありますが、不偏分散を使う主な理由は、過小評価を防ぐためであるということです。

う〜ん、どうして「過小評価」する傾向がでるのか、の説明がないですね。
まぁ、その説明として冒頭で不正確な事を言ってしまってるので、そっちの方を突っついてみましょうか。(上の方の回答で緑に色を変えた部分)

ありがとう。また戻るけど、最初に、標本サイズが小さい場合に標本平均が母集団平均より大きくなりがちだと教えてもらったんだけど、標本平均って、母集団平均を予測するのに使うのなら、大きくなっちゃうと困るんじゃないかな?<<

確かに、標本平均が母集団平均よりも大きくなりがちだということはあります。しかし、標本平均が母集団平均よりも大きくなる傾向があることは、標本平均が母集団平均を予測する際に問題となるわけではありません。

なぜなら、標本平均は母集団平均を予測するための1つの推定量に過ぎず、標本平均だけでなく、他の統計量や手法を使って推定を行うことができます。また、母集団分布が正規分布に従う場合、中心極限定理によって、標本平均は母集団平均に近似することが期待されます。

つまり、標本平均が母集団平均よりも大きくなる傾向があることは確かにあるものの、統計的には問題とならず、標本平均を含めた複数の推定量や手法を使って、より正確な予測を行うことができます。

標本平均は大きくなるけど、他の統計量で補正できる? 聞いたことがない珍妙な事を言い始めました。
これはやばいので、この辺でやめましょう。

とりあえず、ChatGPTに統計を教えてもらうのは、やめた方が良いですよ。