分析対象の文字数に制限はありますか #1246
-
お使いのKH Coderのバージョン3.Beta05b Mac ご質問の内容をお書きください■お使いのOS ■分析しようとしているのは何語のテキストですか? KHcoderで処理する際、対象の文字列には文字数の制限があるのでしょうか。別スレッドに立てた韓国歴代大統領の演説テキスト(韓国語)を処理しようとしています。最初はExcelファイルを作って処理しようと思いましたが、Excelでは1つのセルに入れられる文字数に制限(32,767文字)がありました。対象の演説テキストにはこれを超える文字数のものがあるので、CSVファイルを作りました。制限を超えたのは、4万字超と5万字超がそれぞれ1本でした。 KHcoderでCSVファイルを読み込み、前処理をすることはできました。なので動作するのだろうとは考えたのですが、もしかして分析する際には文字数に制限がある可能性もあるのではないかと心配になってきました。 マイクロソフトのサイトを見ると、Excelには1つのセル内での最大改行数が253という制限もありました。ただpythonコードで処理した場合、この制限を超える改行数を含むセルもできてしまいました。それでもExcelファイル内にきちんと収納されていましたので、余計にわけがわからなくなってしまった次第です。 文字数制限があるとしたら、実際の分析を進める際に工夫が必要になるような気がしています。お忙しいところ大変恐縮ですが、ご教授いただけないでしょうか。よろしくお願いいたします。 ここまでに進めた作業は以下の通りです。 データは公開されているものですので、必要であればアップロードします。 |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 2 replies
-
データ準備お疲れさまです。多くの場合、分析よりもデータの準備が大変ですよね。 さて、KH Coderそのものには文字数制限はないはずです。 理論的には、MeCabで語に分割したあとのファイルや、MySQLデータベースの構成ファイルが、HDD/SSDのスペースを埋め尽くすまで動くはずです。 ただ現実的には、あまりファイルが大きくなると前処理や、統計計算にものすごく長い時間がかかって現実的ではなさそうに思います。私自身が分析を試した最大のファイルは、CSVファイルで200MBくらいまでです。分析に結構長い時間がかかったので、あれこれ試したりするには、ランダムサンプリングなどの方法で5MBから10MB程度に減らすのが快適かなと思います。 KH Coderの前処理が完了したら、KH Coderが認識しているH5(セル)の数、段落(改行)の数、文の数などがメイン画面に表示されます。この数を見て、分析対象ファイルを最後まで処理できていそうかどうかご確認いただくのが確実です。 |
Beta Was this translation helpful? Give feedback.
データ準備お疲れさまです。多くの場合、分析よりもデータの準備が大変ですよね。
さて、KH Coderそのものには文字数制限はないはずです。
理論的には、MeCabで語に分割したあとのファイルや、MySQLデータベースの構成ファイルが、HDD/SSDのスペースを埋め尽くすまで動くはずです。
ただ現実的には、あまりファイルが大きくなると前処理や、統計計算にものすごく長い時間がかかって現実的ではなさそうに思います。私自身が分析を試した最大のファイルは、CSVファイルで200MBくらいまでです。分析に結構長い時間がかかったので、あれこれ試したりするには、ランダムサンプリングなどの方法で5MBから10MB程度に減らすのが快適かなと思います。
KH Coderの前処理が完了したら、KH Coderが認識しているH5(セル)の数、段落(改行)の数、文の数などがメイン画面に表示されます。この数を見て、分析対象ファイルを最後まで処理できていそうかどうかご確認いただくのが確実です。