2008年12月6日(土) 、SBM研究会事務局主催のイベント「第2回SBM(ソーシャルブックマーク)研究会」へ行ってきましたので、当日のメモをまとめてみます。といっても

等を回ると詳しいレポート&考察が沢山出てきますので、私はプレゼン資料に上がっていない、伊藤 直也氏の講演とパネルディスカッションの様子を記したいと思います。

(注:なんかはてなの調子が良くないので、記事を3本に分けました)

はてなブックマーク2【はてな:伊藤直也氏(id:naoya)】

統計で見る現状
  • 300万UU/月(Google Analytics)
  • 206000アカウント
  • ユーザー推移(丸みを持ったのび)
  • ブクマ数比較(国内主要サイト)
    • hatena,yahoo,choix,fc2,livedoor,buzzurl,delicious
    • はてなが圧倒的
    • はてなもITに突き抜けているわけではない
  • ブクマ数比較(国内主要サイト)
    • hatena,delicious,digg
    • 海外勢が強い(delicious<hatena<digg)</li>
  • 性別・年齢別
    • 男女まんべんなく
    • 女性は年齢層に偏りあり(原因不明)
  • カテゴリー別
    • ITだけじゃない(ゲーム、エンタメ等)
リニューアル直後の数字
  • リニューアル前後のユーザ数純増
    • 300~350
    • 若干上昇傾向
  • リニューアル前後のUU
    • 順調に上がってきている
  • 全期間
    • 謎の急増期間(検索エンジンに訊いてくれ)
  • お気に入り数
    • 微増
  • 収益面
    • 収益が3倍に増えた広告があった
  • 今後の大まかな目標
    • 半年で規模2倍!
リニューアルの動機と裏側
  • 目標規模
    • 登録ユーザー数:20万→30万
    • UU300万→600万(Google Analytics)
  • なぜリニューアルしたか
    • システム的な理由
      • 検索、テキスト分類、お気に入り機能の作り替え…実装な困難
  • リニューアルの方針
    • 既存ユーザーの使い勝手を第一に、新しさを加える
      • ○ドラクエ→ドラクエ2
      • ×ドラクエ→ファイナルファンタジー
  • 体制
    • 2月~4月:1人
    • 4月~6月:2人(+デザイナー)
    • 6月~8月:3人(+PG)
  • タスク
  • PFI社と戦略的提携
    • Preferred Infrastructure
      • 検索
  • リニューアルの流れ
    • 初期:基本的なコードベースを作る
    • 中期:新しい機能の整理、方針固め
    • 後期:スケジュールに沿って実装
      • 9/18 社内リリース#1
      • 10/25 社内リリース#2
      • 11/6 ベータ開始
      • 11/25 b.hatena.ne.jp 入れ替え
  • 成果
    • システムの刷新は成功
      • 検索、テキスト分類、お気に入り機能
      • リーム体制→10倍の体力
        • ベータ以降実装したアイデア→120件以上
  • はてなブックマークの三軸
    • メディア(発見)
    • コミュニティ(コメント欄でのやりとり)
    • 機能(オンラインブックマーク)
  • リニューアルで強化された箇所
    • 機能
      • 「お気に入り」
        • 衆愚化問題
          • ワイドショー化
        • コミュニティは分散するべき
        • ソーシャル・ブックマークの本質的な機能
      • 「便利ですよ」では使ってもらえない
        • お気に入りがある程度増えないと面白くない
          • 低い利用率…全体の1割程度
        • 増やしたくなるインセンティブが必要
          • 「便利だから」では増やさない
          • 「自然と増やしたくなる」ような施策
      • 結果
        • お気に入り機能の利用率向上
        • はてなブックマーク内に「グラフ」
          • グラフがあると・・・
      • お気に入り機能の今後
        • 外部のグラフを取り込む
          • Twitter? Mixi? Facebook?…
      • グループ分け
        • 「プログラマ」と「大学の友人」
      • お気に入り関係を使った機能強化
        • スパム対策、コメントフィルタリング、etc.
      • 検索、テキスト分類、関連エントリ
        • 従来のはてなブックマークの欠点
          • 最新の情報ばかりのフォーカス
      • 過去のデータに光を当てる
        • 玉石混淆から「玉」を取り出す技術
          • コンテンツの「内容」に踏み込む
          • 情報検索、機械学習
      • はてなブックマーク検索
        • お気に入り同士のブックマーク状況が分かる
      • 検索機能開発
        • PFIと共同開発
          • Sedue
            • Compressed Suffix Arrays
        • PFI
          • インデクサ、サーチャー、分散FS…
        • はてな
          • インタフェース、ジョブキュー、本文抽出、クローラ…
        • アルゴリズムを共同開発…”はてブRank”
      • 検索のスコアリング
        • tf・idf など古典的なアルゴリズム+はてなブックマーク独自のメタデータ
          • ブックマーク数、日付etc…
          • +多数のヒューリスティクス
      • 検索の今後
        • より一層の精度向上
          • クエリログからのフィードバック
          • クエリログからのクエリ補正
        • ブックマークからウェブへ一歩拡げる
          • リンク解析→ブックマークにフィードバック
      • テキスト分類
        • テキスト分類エンジン “BDog”
          • Complement Native Bayes
          • Cosine Similarity
        • なぜエンジンを開発?
          • 元々のカテゴリ制度が低かった
          • 元々のカテゴリ分けがキーワード向け
            • 「動植物」とか使わないよ!
          • コンピュータへの偏りを
        • 現在のカテゴリ
          • 8種類
          • これまでの利用傾向から
            • ボリュームがある程度ないと「人気エントリー」は作れない
      • 今後
        • カテゴリごとの新着
        • トピックスページ
          • コンピュータ・ITには放っておいてもリーチできる
        • カテゴリの細分化
          • デザイン、料理、恋愛、お役立ち…
      • 関連エントリーエンジン “BSim”
        • PFIと共同開発
        • タグの情報を使った類似度検索
          • タグのセマンティクスには踏み込まない
      • BSimができるまで
        • 誰が何をブックマークしたか
          • 精度:中
        • ページに含まれるキーワードの類似度
          • 精度:低
        • タグの類似度
          • 精度:高
      • なぜ内容に踏み込むのか?
        • ブックマーク数だけの評価の限界
        • テキストを扱う企業としての取り組み、参入障壁
        • 内容に踏み込まない限り次に飛躍はあり得ない
今後の予定
  • 次の上半期
  • コミュニティ
    • 「お気に入り」による繋がり強化
    • 非表示機能によるフィルタリング
    • コミュニティの分散
    • 「はてなブックマーク市民」
      • 市民のみへのサービス提供
      • 市民からのフィードバック
  • フィルタリングに関する基本方針
    • 表現の自由は原則維持
      • 「見たくないものは見なくて済む」
      • 「見たければ全て見られる」
      • 強制消去、特定の表現の入力制限は実装しない
      • 削除ガイドラインに則った運営
    • 蛸壺化に対する懸念
      • 「分散せずに全開」がもっとも蛸壺化すると考える
予想されうる問題への基本姿勢
  • ある程度問題が顕在化し始めたところで対応する
    • コミュニティ運営コツ
      • はじめから全ての問題を想定してもその通りにならない、効果的な対応策を練る事ができない
    • 例:スパム
  • 今後も起こりうるであろう問題
    • 手の込んだスパム
    • より一層のワイドショー化
    • コミュニティの蛸壺化
    • ベテランと初心者の衝突

パネルディスカッション

SBM研究の現在
  • 個別の研究者が個別のサービスに問い合わせ
    • 無断クロールの場合も
  • 問題
    • 唯一無二のデータセットに基づく
      • 取得範囲
      • 取得時期
    • 「巨人の肩の上に立つ」ために
      • 第3者による再現の可能性を担保する
      • 共通データセット
共通データセットによる研究
  • 自然言語系
    • TREC (Text REtrieval Conference)
    • NTCIR (NII Test Collection for IR)
  • ブログ系
    • ICWSM
    • So-netリコメンドサービスコンテスト
  • データ配布
    • Yahoo!検索語
    • Google日本語コーパス
    • Wikipedia
  • 研究者側の宿題
    • 契約主体
    • 成果の取り扱い
    • 発表の場
    • 事業者のメリット
      • 新機能開発?
      • 広報?
      • 採用活動?

第2回SBM研究会 Twitterログへ続く。

広告