言語処理100本ノック(第1章)



スポンサードリンク

最近、自然言語処理の勉強を始めたので、東北大学のある教授?が作成した100本ノックをやってみることにしました。

00. 文字列の逆順

「文字列”stressed”の文字を逆に(末尾から先頭に向かって)並べた文字列を得よ.」

特に難しいことはないです。strの引数を[::-1]とすることに注意。

実行結果:

 

01. 「パタトクカシーー」

『「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ.』

配列の要素番号は0から始まることに注意です。strの最後の「2」は2つおきに(奇数なので)、[0,2,4,…]ということです。

実行結果:

 

02. 「パトカー」+「タクシー」=「パタトクカシーー」

『「パトカー」+「タクシー」の文字を先頭から交互に連結して文字列「パタトクカシーー」を得よ.』

自分はzip関数というものを知らなかったので、だいぶ手こずりました笑。どうやら二つのリストの要素ごとに、同時にfor文で回せるようです。

これを知らなかったので、自分は二つのfor文を書き無駄にてこづっていました。

実行結果:

 

03. 円周率

『”Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.”という文を単語に分解し,各単語の(アルファベットの)文字数を先頭から出現順に並べたリストを作成せよ.』

スペースキーでsplitしたいときは、split(” “)ですね。ついでにタブでsplitしたいときは、split(“\t”)です。

実行結果:

04. 元素記号

『”Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can.”という文を単語に分解し,1, 5, 6, 7, 8, 9, 15, 16, 19番目の単語は先頭の1文字,それ以外の単語は先頭に2文字を取り出し,取り出した文字列から単語の位置(先頭から何番目の単語か)への連想配列(辞書型もしくはマップ型)を作成せよ.』

連想配列を作成する方法はいくつかありますが、今回は辞書型と言われているので、ループする際にインデックスつきで要素を得られるenumurate(ループする際にインデックスつきで要素を得ることができる)を用いれば良いです。

for 文の引数を指定するときに、単語のnumberと単語自身のnum,word と二つ指定しなければいけないことに注意。このforの後に二つの引数を使うタイプに慣れていないです笑

実行結果:

 



スポンサードリンク

05. n-gram

『与えられたシーケンス(文字列やリストなど)からn-gramを作る関数を作成せよ.この関数を用い,”I am an NLPer”という文から単語bi-gram,文字bi-gramを得よ.』

バイグラム以外のngramを一瞬で解析できます。ngram()の引数を変えるだけですね。

ついでにこの場合の文字バイグラムは空白(スペース)も一文字としてカウントしています。実行結果を見てもらえればわかると思います。

実行結果:

 

06. 集合

『”paraparaparadise”と”paragraph”に含まれる文字bi-gramの集合を,それぞれ, XとYとして求め,XとYの和集合,積集合,差集合を求めよ.さらに,’se’というbi-gramがXおよびYに含まれるかどうかを調べよ.』

ngramの関数は前の問題で作成したものを用いています。

setコマンドは重複を許さない配列の要素を作成します。

さらに二つの配列の中身を比較する際、リスト型からセット型に変換すると、&,-,等の記号だけで集合演算ができます。知らなかった!笑

実行結果:

 



スポンサードリンク

07. テンプレートによる文生成

『引数x, y, zを受け取り「x時のyはz」という文字列を返す関数を実装せよ.さらに,x=12, y=”気温”, z=22.4として,実行結果を確認せよ』

format関数を用いることで、変数の文字列の埋め込みが可能になります。format関数を用いずにやろうとすると、”気温”が数字ではなく文字列なのでエラーになります。

実行結果:

 

08. 暗号文

『与えられた文字列の各文字を,以下の仕様で変換する関数cipherを実装せよ.

  • 英小文字ならば(219 – 文字コード)の文字に置換
  • その他の文字はそのまま出力

この関数を用い,英語のメッセージを暗号化・復号化せよ.』

最初は、暗号文?なんだそれって感じでしたので、時間がかかりました。

chr()コマンドで暗号文に変換します。ord(c)は暗号化前の文字列です。ifで英小文字の範囲内ならjoin(chr(219-ord(c)、else ならそのまま”c”ということです。

さらにifとfor  を内包表記で書いています。この方がコードが複雑になってきたときの可読性が上がるので、この書き方にも慣れないといけませんね!

実行結果:

 

09. Typoglycemia

『スペースで区切られた単語列に対して,各単語の先頭と末尾の文字は残し,それ以外の文字の順序をランダムに並び替えるプログラムを作成せよ.ただし,長さが4以下の単語は並び替えないこととする.適当な英語の文(例えば”I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .”)を与え,その実行結果を確認せよ.』

いくつかコマンドについて説明します。

  • itertools.permutations():iterable の要素からなる順列 (permutation) を連続的に返す。
  • random.randint(a,b):a <= N <= b であるようなランダムな整数 N を返す。

難しいところは、単語を連想配列にして番号と記憶させるのと、文字の並び替えの組み合わせを順列で計算し、各組を乱数で番号付しているところでしょうか。

ここでも連想配列が登場しましたね。

実行結果:

以上で第1章は終わりです。続きはこちら>>>第二章前半。



スポンサードリンク

記事が役に立ったらシェア!

投稿者:

中村 俊

中村 俊

1993/09/04生まれ。機械系大学院を休学し、ベンチャーでインターンしている最中。直近では、デカルトの「方法序説」に感銘を受けた。 趣味:読書、web開発の勉強、異分野の論文読んだり、記事書いたり。 最終的には経営者か研究者になりたい。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA