Skip to content

分析対象の文字数に制限はありますか #1246

Discussion options

You must be logged in to vote

データ準備お疲れさまです。多くの場合、分析よりもデータの準備が大変ですよね。

さて、KH Coderそのものには文字数制限はないはずです。

理論的には、MeCabで語に分割したあとのファイルや、MySQLデータベースの構成ファイルが、HDD/SSDのスペースを埋め尽くすまで動くはずです。

ただ現実的には、あまりファイルが大きくなると前処理や、統計計算にものすごく長い時間がかかって現実的ではなさそうに思います。私自身が分析を試した最大のファイルは、CSVファイルで200MBくらいまでです。分析に結構長い時間がかかったので、あれこれ試したりするには、ランダムサンプリングなどの方法で5MBから10MB程度に減らすのが快適かなと思います。

KH Coderの前処理が完了したら、KH Coderが認識しているH5(セル)の数、段落(改行)の数、文の数などがメイン画面に表示されます。この数を見て、分析対象ファイルを最後まで処理できていそうかどうかご確認いただくのが確実です。

Replies: 1 comment 2 replies

Comment options

You must be logged in to vote
2 replies
@Katsumi1967
Comment options

@ko-ichi-h
Comment options

Answer selected by ko-ichi-h
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested Non-English Communication in Japanese language.
2 participants