toddler’s diary

以前は研究にあまり関係ない雑談・2023年4月から本を通じた自分の振り返りやってます

S. Bird, E. Klein, E. Loper 「入門 自然言語処理」オーム社 2010

理研自然言語処理で先日触れた喜多さんや助手の富岡さんがやられていましたが,いろいろNP困難なことが証明されまくっていた難しい世界という印象でした.その後,機械学習分野ではあまり言語という話とかかわりは薄かったように思います.

 

電総研にも自然言語研究室がありましたが,情報系はソフトボールとか計算機室の飲み会などでアフターファイブのつきあいはありましたが,研究上の交流はほとんどありませんでした.橋田さんとはその後自然言語とは関係のない医療データのところでごいっしょしましたが,基本的にあちらはオントロジーとかで,こちらは強化学習とかなので,アプローチは全くかみあっていませんでした.

 

ibis とかに元電総研にいらっしゃった松本裕治さんがいらっしゃって一言二言会話したぐらいでしたが,確率言語モデルなどで少し関りがあった程度でしょうか.

 

その後時代は流れて,今や深層学習系の自然言語処理が世の中を席巻するようになりました.ただ,いずれにしても普通に実数値ベクトルつっこむだけでなんとかなるお気楽機械学習をやっている身としては,自然言語を処理する環境を整えるハードルが高くて,結局のところ全く自分で自然言語を扱ったことはありません.唯一トピックモデルの学習でRのパッケージに入っていたデータを使ったり,何かの研究で tf/idf を計算するとかありましたが,それらは完全に頻度情報なので全く自然言語処理とは言えません.

 

一方で,共同研究とかやっていると,自然言語を処理しないといけないような状況になることがあります.まあそれは避けてはきたのですが,この本をはじめ何冊の本が積読状態で本棚に並んでいます.この本は Python ベースの NLTK というツールキットを使用する前提で書かれたオライリーのシリーズ本の1冊です.ほとんど読んでいませんが,ネットで調べると今でもちゃんとメンテナンスされているので,深層学習以外の自然言語処理というのも脈々と続けられていることがわかります.

 

もちろん画像や音声でも深層学習関係なくいろいろツールは現役なのでそれほど驚くことではないですが,ちょっと離れた分野だと深層学習一辺倒だと思い込みがちということを感じました.