AGH University of Technology and Science
2013/2014
- Program, który wyciąga z plików ze wskazanych folderów paragrafy, które zawierają słowo-bodziec.
- Działanie programu ścisle związane ze strukturą plików i katalagów dostarczonych przez prof. Lubaszewskiego.
- Prus i PAP w ISO-8859-2. NKJP w UTF-8.
- Plik PAP musi być przeniesiony do osobnego folderu.
- Z katalogów NKJP brane są pod uwagę pliki
text.xml
- program korzysta z PLP
./text-parser.py <słowo-bodziec> <dir-with-files> <prus|nkjp|pap>
np.
./text-parser.py niemowlę /home/dariusz/korpusy/pap/ <pap>
- program korzysta z PLP
<bodziec-notatki-file>
to wynik uruchomienia poprzedniego programu (text-parser.py)
./notatka-skojarzenia-list.py <bodziec-word> <bodziec-notatki-file> <skojarzenie-file> ...
np.
./notatka-skojarzenia-list.py niemowlę niemowle_pap.txt niemowle.csv dziecko.csv pielucha.csv placz.csv