トップ «前の日記(2007-08-11) 最新 次の日記(2007-09-04)» 編集

豊田正史のSLとは関係ございません


2007-08-13

_ [大学] 大学院講義「ウェブ工学」のネタ選び

10月開講の「ウェブ工学」で何をネタにするかそろそろ考えなくてはいけない。ウェブ工学ってなんだってのはひとまず置いておいて、ウェブ関係のネタで研究ができるようになることを目標とし、それに必要な基礎知識はなにか、というあたりから考えていくことにしよう。とりあえず思いついたものから挙げてみる。

The Anatomy of a Search Engine

まずは、これを読めるような基礎知識を教えないといけないだろう。これの後に、この手のサーチエンジンアーキテクチャ論文ってあるのかな?あ、Anna Pattersonの記事とかあったなあ。

Tech Report: SRC-RR-175: The Link Database: Fast

リンクデータベースの作り方。PageRankやHITSなどを実際にウェブのスケールで計算しようとするとこのあたりの知識が必要。この後、圧縮率を高める構成法の論文が数本出ているがそこまで授業でやる必要はないだろう。

Syntactic Clustering of the Web

Shinglingを用いたNear mirror pagesの検出方法。これも基本技術として押さえておきたい。最近、Googleからもnear mirror検出のより詳細な論文が出ているが、これが基本。

Page, Lawrence; Brin, Sergey; Motwani, Rajeev; Winograd, Terry: The PageRank Citation Ranking: Bringing Order to the Web.

言わずと知れたPageRank論文。Anatomyでも触れられているので、より詳細にやる必要があるかどうか...。

Authoritative Sources in a Hyperlinked Environment

Authorityとhubの概念を用いたリンク解析手法。バリエーション論文もたくさんあるが、簡単に触れておけばよいだろう。Trawling を扱うかどうか?

Graph structure in the web

大規模なウェブグラフの構造を明らかにした論文。まあ何に役立つという話ではないが、知識として知っておいてよい。

これで4、5回分にはなるかな?ちょっとリンク系に偏っているので、全文検索もネタとしては入れたい。検索の基礎は何をネタ元にするとよいかなあ。転置索引、ブーリアン検索、ベクター空間モデル、TF/IDFなど?クローラ関係も入れたいところ。セマンティックウェブ関係ってなにかやったほうがよいのかなあ?ご意見・アドバイスありましたらどしどしお寄せいただけますと幸いです。

本日のツッコミ(全28件) [ツッコミを入れる]
_ ぜん (2007-08-13 23:45)

「Web工学」ってWebアプリの作り方とか開発手法とか、<br>そっちの方には行かないんですか?<br>ソフトウェア工学とWebをMIXしたようなイメージが名前からはするので・・・。

_ とよだ (2007-08-13 23:50)

うーん、どちらかと言うとWebサービスの基盤技術のほうをネタにしたいのですよね。Webアプリまでたどり着けるかどうか微妙です。

_ 増井 (2007-08-14 02:43)

ネットワーク分析関連を一回ぶんキボン

_ 増井 (2007-08-14 02:45)

開発手法とかは技術評論社とかにまかせとけばいいんじゃないでしょうか。理論的な面白い話を教えて下さい〜

_ とよだ (2007-08-14 02:56)

あ、やっぱり。ネットワーク科学の人から見るとウェブって単なる一事例に過ぎなかったりするので、まじめにやろうとすると大変そうです。ウェブに特化したものだとリンク次数の分布がべき分布になるウェブグラフの成長モデルなんてのもあるのですが、面白いかなあ。

_ とよだ (2007-08-14 02:57)

Web2.0アプリの作り方なんてのは、学生が頼んでもやらないつもり。

_ kazama (2007-08-14 07:06)

面白そうな講義ですね.僕もこっそり受けていいですか(爆)<br>あとは全文検索系だったら,形態素解析,n-gramを押さえて,クラスタリングなどの処理を単語とリンクの両面から理解してもらうとか.ネットワーク科学系はスモールワールドとスケールフリー・正規分布とべき分布という言葉の定義を教えて,無向・有向,次数・Betweenness・クラスタリング係数・結合相関などの特性と実データとの関係を教えると一回分でしょう.

_ kazama (2007-08-14 07:12)

うーん,これは賛否両論ありそうだけど,Webの可視化に触れる手もあるかなあ.あと言い忘れましたが,リンクベースのクラスタリングでは,全分類系とノード抽出系(正式な用語を忘れた)の違いについても言及して欲しいです.

_ eto (2007-08-14 11:28)

聴講したいので、いつどこでやってるのか教えてくださ〜い。

_ eto (2007-08-14 11:30)

安田雪先生って授業は教えてないんでしたっけ。

_ とよだ (2007-08-14 11:50)

kazamaさん、ありがとうございます。クラスタリングはネタとしては重いので適当なところで引かないと大変なことになりそうですね。可視化も実際に実験するときは必要なので、考えて見ます。

_ とよだ (2007-08-14 11:55)

etoさん、日時と講義室はもう公開されているはずだけど、自分でよく分かってなかったりします。後で聞いてみます。安田先生も経済学部でネットワーク関係の講義やってるみたいですね。そうするとあまりかぶらせないほうがよいかなあ。

_ eto (2007-08-14 13:57)

かぶっていてもいいと思います。ネットワーク分析について、ぜひ聞きたいです。

_ 中村 (2007-08-14 14:10)

学生以外の聴講者が多くなりそうなヨカーン<br>さておき,ウェブ工学の国際会議はやたらとウェブ開発の効率化に関する話ばかりやってて退屈でした:-)

_ kazama (2007-08-14 14:20)

同じネットワーク分析でも,社会学系と物理学系ではかなり異なるアプローチを取るので,物理学系に属することが多いWeb系の分析は,安田先生の社会ネットワーク分析の講義内容とは,あまり重ならないと思います.結局は社会学系は個人が興味の対象なんですよ.

_ とよだ (2007-08-14 15:16)

中村さん、やっぱ名前の付け方間違えましたね。工学系所属だからしようがないのだけど。

_ とよだ (2007-08-14 15:18)

しかし、ネットワーク科学って人気だなあ。私はそんなに好きじゃないんだけど、なんていうと「えええぇ」と言われそう。増田先生の本を下敷きにワッツとストロガッツのスモールワールドあたりまでやればよいのかしらん。

_ kazama (2007-08-14 16:06)

WSモデルやBAモデルに簡単に言及する必要はあると思うけど,Web工学としては,増田先生の本より,新ネットワーク思考(Linked)のような感じで紹介した方がいいかもしれません.要するにWeb空間を統計的に見ると,いろいろな部分にべき分布が出てくる(パレートの法則にもからめて)とか,平均距離が意外に短いとか,ハイパーリンクネットワークと社合ネットワークの根本的な性質の違いは前者は結合相関(次数相関)が負,後者は正になることとか….

_ とよだ (2007-08-14 16:35)

統計的な現象の紹介だとちょっと足りないかもしれません。Webグラフの成長モデルにはAlmadenのコピーモデルなんてのもあるのでできればそのへんまで紹介できればよいのですが...。

_ とよだ (2007-08-15 02:02)

はてブで、講義名が「ある種危険」だと言われてしまった...。

_ bun (2007-08-16 16:21)

良さそうな話だ。10月開講か。単位数は幾つか?

_ とよだ (2007-08-16 16:25)

単位は普通の講義と同じではなかろうか。たぶん。

_ bun (2007-08-16 16:28)

すみません。すぐに調べられた。2単位ですな。ユーザからのフィードバックを採取して活かす理論とか? それってどうしても開発系の話によってしまってバランス悪いか。

_ とよだ (2007-08-16 16:50)

Relevance feedbackのことかな?最近さっぱり聞かなくなってしまったが。。。

_ うどん (2007-08-16 17:57)

ご存知と思いますが、これはほんと良くできてます。http://www.stanford.edu/class/cs276/cs276-2006-syllabus.html

_ とよだ (2007-08-16 18:02)

ありがとうございます。ちょうどうどんさんにRaghavanの講義のことを聞こうと思ってたところでした。IRの基礎を中心にWebをおまけでと言う感じですね。IRの部分を参考にしたいと思います。

_ kazama (2007-08-16 19:06)

昨日「確率モデルによるWebデータ解析法」("Modeling the Internet and the Web"の訳本)を入手して,これから読むところですが,もしかすると参考になるかも.<br>http://www.morikita.co.jp/mkj/09531.html

_ とよだ (2007-08-16 19:15)

kazamaさん、その本もちょっと気になってたんですよ。後で見てみます。


README日記の書き方