Rで学ぶグラフ理論(第4回)



スポンサードリンク

前回の続きでグラフ構造の評価方法について述べていきます。

相互性

有向グラフにおいて、頂点間の関係のうち有向辺がお互いに向いているものの割合です。言い換えると両思いの割合です。

以下の図に示すように、頂点には4パターンの関係が考えられます。

そして上の図で言えば、相互性は次のように定義されます。

\begin{eqnarray}
\mathrm{reciprocity} = \frac{a}{a+c+d}
\end{eqnarray}

しかし上記の定義は一部である。上の定義式の分子にbを加えた場合の定義も存在する。

両者の区別は、分析の目的に応じて異なる。企業間の株式のネットワークにおいてはaとbは全く別の状態であるが、集団における贈与のネットワークにおいて、互酬性の規範がどの程度守られているかを知りたいときには、aとbは同等のものとして扱うべきである。

なぜなら、互酬性の規範に反するのは、贈与が一方向に行われている場合(図のcとd)であり、お互いに無関係(b)の場合は、規範に反していない。一応その場合の定義を以下に示す。
\begin{eqnarray}
\mathrm{reciprocity} = \frac{a+b}{a+b+c+d}
\end{eqnarray}

階層的構造

出-木構造の必要十分条件として以下の4つが定義されている。

連結性、階層性、効率性、最小上界性である。これらに違反している程度からある有向グラフが階層的構造を持っているかどうかを評価する。

連結性

辺の方向を無視した時グラフ全体で相互に到達可能な頂点の組みがどれくらいあるかによって連結性を定義できる。辺の方向を無視しても相互に到達不可能な頂点の組の数をVとすると、全ての頂点間の組みの数に対するその比率を1から引くことで求める。

\begin{eqnarray}
\mathrm{connectedness} &=& 1 – \frac{V}{\frac{n(n-1)}{2}}
&=& 1 – \frac{2V}{n(n-1)}
\end{eqnarray}

階層性

上の図のように、上から下へ一方向ではなく、相互に到達可能な関係があるとすれば、それは上下関係とは呼べず、階層性に違反していることになる。

よって、双方向に到達可能な頂点の組みの数V、少なくとも一方から他方へ到達可能な頂点の組数でをMaxVとすると以下の式で表現できる。

\begin{eqnarray}
\mathrm{hierarchy} &=& 1 – \frac{V}{\mathrm{Max}V}
&=& 1 – \frac{2V}{n(n-1)}
\end{eqnarray}

上の図の場合、双方向に到達可能な組みがないので、階層性は0になる。


スポンサードリンク

弱連結

上のグラフでいうと頂点1,2,3,のような関係。

離散数学的な定義

  • • 任意の頂点u, v間が、弧ではつながっている

図で示すと

みたいな感じである。

効率性

出-木構造は上位の頂点から下位の頂点へと必ず一つの経路を通って到達できるという意味で効率的である。しかしそのような経路が複数ある場合それは無駄であるため、そのような効率がどの程度実現しているかを表す指標が効率性である。

今、n個の頂点とm個の有向辺からなる弱連結の有向グラフを考える。もしこの有向グラフが出-木構造なら有向辺の数は、m = n -1 となる。

よって出-木構造でない実際の有向グラフに含まれる冗長な有向辺の数はm-(n-1)となる。

mの理論的な最大値はn(n-1)となるから、冗長な有向辺の数の理論的最大値はn(n-1)-(n-1)である。

これらを用いて、効率性は次のように定義できる。ただしVは冗長な有向辺の数、MaxVは冗長な有向辺の理論的最大値である。

\begin{eqnarray}
\mathrm efficiensy &=& 1 – \frac{V}{\mathrm{Max}V}\\
&=& 1 – \frac{m-(n-1)}{n(n-1)-(n-1)}\\
&=& 1 – \frac{m-(n-1)}{(n-1)^2}
\end{eqnarray}

弱連結でない場合(すいませんがここからよく理解できていません)

文章も砕けた感じになります。

私が参考にしている本では

「この場合は、いくつかの連結成分に分かれている場合がある。この場合、それぞれの連結成分が出- 木構造となっているのがもっとも効率的である。」と書いてあります。

????

まず言葉の定義から

連結成分

以下の図を考えます。

連結成分とは同値関係におけるグラフGの部分グラフである。

{1,2,3},{4},{5,6,7}は連結成分を誘導するという。

でこの連結成分が、上の{1,2,3}のように閉ループを構成するのではなく、

こんな感じになってれば、良いと言っています。

要は、全体で」見たと時に弱連結でなくとも、部分グラフ単体で見た時に、出-木構造になっている時に、もっとも効率が良いということだろう。

弱連結でない時の定義

直感的に十分理解できる。別れている部分グラフのごとに先ほどの定義式を使うだけである。そしてシグマを取れば良い。

有向グラフがN個の連結成分に別れている時、i番目の連結成分に含まれる頂点の数をniとすると、効率性は以下のように定義できる。
\begin{eqnarray}
\mathrm{efficiensy} &=& 1 – \frac{m-\sum^{N}_{i=1}(n_{i}-1)}{\sum^{N}_{i=1}n_{i}(n_{i}-1)-(n_{i}-1)}\\
&=& 1 – \frac{m-\sum_{i=1}^{N}(n_{i}-1)}{\sum_{i=1}^{N}(n_{i}-1)^2}
\end{eqnarray}

実際に計算してみる

階層構造の4つの指標について実際に計算してみることにする。

計算する有向グラフを以下に示す。

計算の簡便化のために以下のような表を作成する。条件に当てはまるものが1、当てはまらないものが0である。

頂点のペア 一方向に到達可能 双方向に到達可能 最小上界をもつ
1-2 0 0 0
1-3 1 0 1
1-4 1 0 1
1-5 0 0 0
2-3 0 0 0
2-4 1 0 1
2-5 1 1 1
3-4 1 0 1
3-5 0 0 0
4-5 1 0 1

連結性

この有向グラフは弱連結であるので、全ての頂点間で到達可能であるため連結性は1である。

階層性

有向辺を辿って少なくとも一方向に到達可能なペアに対する双方向に到達可能なペアの比率を1から引いて求めるられる。一方向に到達可能なペアは6つ、両方向に到達可能なペアは1つなので

\begin{eqnarray}
1-\frac{1}{6} = 0.833333
\end{eqnarray}

効率性

効率性は「階層性のうち冗長な経路の数の多さ」を評価しているので、上の表は関係ない。頂点の数と有向辺の数に依存するので、
\begin{eqnarray}
1-\frac{6-(5-1)}{(5-1)^2} = 0.875
\end{eqnarray}

最小上界性

上の表より最小上界を持たないペアの数は4ペア。最小上界性を求める式を用いて計算すると
\begin{eqnarray}
1-\frac{2 \times 4}{(5-1) \times (5-2)} = 0.33333
\end{eqnarray}

となる。


以上でネットワーク構造の評価法の相互性と階層構造について述べてきた。

次は、前回と前々回にやったColemanの高校生の友人ネットワークのデータを用いて、これまで述べてきた指標について計算し、その結果とそこから導かれる背景について論じていこうと思う。



スポンサードリンク

記事が役に立ったらシェア!

Rで学ぶグラフ理論(第3回)



スポンサードリンク

前回の続きをしていこうと思います。グラフ理論というより厳密にはネットワーク分析ですね笑。まあそういう細かいことはほっておいて笑。

用いるデータは前回と変わりません。

ネットワーク構造の諸批評

前回説明した密度以外にどんなものがあるか述べていきます。

推移性

わかりやすくいうと無向グラフの場合、グラフ全体のうち閉ループになっている割合です。

私が参考にしている本では「自分の友達の友達は自分の友達である割合」と言っています。人的ネットワークでいうと三角関係の割合というところでしょうか。

下のような隣接行列で表されるグラフであれば、3-2-1とか、1-4-5-の関係の割合です。

具体的な計算方法

  1. 隣接行列Aを2乗する。→理由は不明だが、算出された各成分は長さ2の経路の数に等しくなる。
  2. 1で求めた行列A2の成分の和を求める。→長さ2の経路の数
  3. 2で求めたもののうち、両端の頂点に直接関係のあるものは、A2とAの成分積の成分の総和となる

よって推移性は以下の式で定義される。
\begin{eqnarray}
R = \frac{\sum A_{ij}}{\sum A2_{ij}}
\end{eqnarray}

Rでの計算方法

12から14行目はグラフ表示する部分ですので、推移性を求める場合はいらないです。

計算すると

となります。


スポンサードリンク

密度との比較

ここで前回のデータ(高校生の友人関係のネットワークデータ)を用いて、推移性を求めてみようと思います。

gtrans()は推移性を求める関数です。

1957年秋に比べ、1958年春の方が推移性は下がっています。友人関係の密度(繋がり)は増加しても、三角関係というか(共通の知り合い)は増えないみたいです。

友達の紹介を通じて得られる友人よりも、個人個人で新たに繋がりを増やす人の方が多いということでしょうか。

ネットワーク分析で事象の背景が見えてくるのは本当に面白いですね。



スポンサードリンク

 

 

 

記事が役に立ったらシェア!

Rを用いてグラフ理論を学んでみる。



スポンサードリンク

グラフ理論をRを使って勉強してみよう思います。

今回は簡単なグラフを可視化するところから。

その前に環境構築(mac)

Rは簡単にインストールできます。ここではRとRの統合開発環境のRーstudio(swift でいうxcode,androidアプリでいうandroid-studio)のインストール方法について述べて行きます。

homebrewはあらじかじめインストールしておいてください。

次に下記のコマンドを実行し、インストール

かなり時間かかります。辛抱強く待ちましょう。

次にR-studioです

次にインストールコマンド。

インストールが終了するとターミナルに以下が表示されると思います。

以下のコマンドを実行するかlaunchpad等から直接起動しましょう。

以上で準備は終わりです。

グラフ理論の細かいことはほっといて…

とりあえずR-studioで遊びましょう。起動すると以下のような画面になると思います。

左側がコンソールでここにコマンド打ち込んで行きます。スクリプトを作成し、それを読み込ませることもできるみたいですが、それはまた今度で。

R-studioでグラフ理論を学ぼう!(超基本)

グラフを作成するために以下のコマンドを実行しライブラリを読み込みます。

グラフ理論ではグラフをGで定義し、ここでは以下のように定義します。

erdos.renyi.game()の意味は現時点では不明だが、呪文だと思って使うことにします。

()内の数字は、10がグラフ理論における隣接行列の行の数(正方行列)。9/10が一列または一行における成分が「1」の数となる最大値。

これはランダム生成なので、必ずしも列、行内に1が9個出現する訳ではありません。

最後は有向グラフという意味。無向グラフの場合はいりません。

次にxとして隣接行列の作成

そうすると以下のような隣接行列が作成されます。

次にエッジリストです。

隣接行列に比べ、コンパクトになるので、大規模かつ疎なグラフに対して用いられます

以下のコマンドを実行。

実行するとわかりますが、グラフが密であるため、成分が多くなり、かなり行数が多くなります。

今回はスペース省略のため割愛させていただきます。

ついに可視化!

layout.()関数はグラフを描画するためのコマンドで、色々な種類のグラフを作成するために多くの関数が用意されています。

今回は円で表示したいのでcircleにする。

R-studioの右下の欄に以下が表示されれば、おっけーです。

ついでにlayout.circleをlayout.sphereにしてみる。

まだ勉強不足なため、両者の違いが理解できない笑

以上で、R-studioでのグラフ理論の遊びを終わりにします。

隣接行列やエッジリストの説明など今回は省きましたが、R-studioを使って遊びながら書いて行きます。



スポンサードリンク

記事が役に立ったらシェア!