Skip to content

bachboy0/5chparser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

5chparser

5ちゃんねる(旧2ちゃんねる)のスレッドHTMLファイルを解析し、JSONL形式で構造化データとして出力するPythonツールです。

機能

  • 5chのHTMLファイル(Shift-JIS)を読み込み
  • スレッドタイトルと各投稿(レス)を抽出
  • JSONL形式で構造化データとして出力
  • 複数のHTMLファイルを一括処理

必要要件

  • Python 3.x
  • beautifulsoup4
  • lxml

または

  • Docker

インストール

Python環境での実行

pip install -r requirements.txt

Dockerでの実行

docker build -t 5chparser .

使用方法

Python環境での実行

  1. 解析したい5chのHTMLファイルを target*.html(例: target1.html, target2.html)という名前で配置します。
  2. スクリプトを実行します:
python main.py
  1. all_threads_data.jsonl に結果が出力されます。

Dockerでの実行

docker run -v $(pwd):/workspaces/5chparser 5chparser

出力フォーマット

各レス(投稿)は以下のJSON形式で出力されます:

{
  "source_file": "target1.html",
  "thread": "スレッドタイトル",
  "id": "投稿番号",
  "name": "投稿者名",
  "date": "投稿日時",
  "uid": "ユーザーID",
  "text": "投稿本文"
}

ファイル構成

  • main.py - メインの解析スクリプト
  • requirements.txt - Python依存パッケージ
  • Dockerfile - Docker設定ファイル
  • all_threads_data.jsonl - 出力ファイル(実行後に生成)

注意事項

  • 入力ファイルはShift-JIS(cp932)エンコーディングを想定しています
  • HTMLファイルは target*.html というパターンで命名してください
  • 5chのHTML構造に依存するため、サイトの仕様変更により動作しなくなる可能性があります

ライセンス

このプロジェクトは個人利用目的で作成されています。

About

5ちゃんねる(旧2ちゃんねる)のスレッドHTMLファイルを解析し、JSONL形式で構造化データとして出力するPythonツール

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors