IBM's UIMAを使ったアイディアコンテストにentry済です。
いま勤務先でつくってる学術ECM*1システムにはUIMA*2を搭載しています。
UIMA とはナニですか?
はてなダイアリーのキーワードの機能って便利ですよね?この機能が便利だから blogははてなを使っている、という人も居るんじゃないでしょうか?
UIMAは、構造化されていないdocumentから、はてなキーワードのように、固有の名称を抜き出す機能です。わざとdocument、と書いたのは、対象のコンテンツをtextに限定しないからです*3。
元々IBMが開発し、製品に組み込んでいたのを、オープンソース化するというニュースが年初に出ていました -> http://japan.internet.com/webtech/20060124/12.html
UIMA ←どう発音しま巣か?
CMUのshimaさんblogによると、発音は「ユイーマでイにアクセント」らしいです。IBM大和のdistinguishedな研究者の方は「ユーアイエムエイ」と読んでいらした。どっちも正解なんでしょうけど、UMA Thurmanファンな私としては「ユィーマ」と、Iを小さく読みたい
コンペ
募集要項 -> http://www-304.ibm.com/jct09002c/university/scholars/products/eclipse/uima.html
UIMAの応用方法の提案をしろ、というもののようです。応募資格は一応ありそうなので、勤め先の組織の名でentryしてみました*4。最高金額3万$手に入るとあっちゃあ駄目もとでも行きますよ
需要があるのは以下のようなデータに対してかな?
- 構造化された情報をリアルタイムに提供する必要があるもの
- document中に登場する名詞が一般的過ぎず、特徴的である
うーん、具体的にもっとbreakdownしないと、提案出来ないな…
*1:Enterprise Content Management
*2:このリンクにはtechnoratiの「タグ」を使ってみた
*3:その辺の技術コンセプトは、以下のpdfの24頁が解り易い。http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf
*4:entryのdue dateは米国時間だとすれば日本の今日夕方なので間に合わなかったですが、なんとかなるかしら?