Experimental project

This is a sandbox project, which contains experimental code for developer use only.

This module provides one-way string transliteration (romanization) and cleans file names during upload by replacing unwanted characters for Japanese characters.

There is a useful module named Transliteration .
But,Transliteration Module chages strings from Japaese to Chinese.

Japanese Transliteration needs Morphological Analysis and Dictionary.
Basic Japanese Text Analysis Technology as a Platform for Knowledge Extraction | NTT Technical Review

This module uses MeCab library for inverting Japnaese characters to US-ASCII characters.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCab is faster than KAKASI library and used with Apache Solr.
But , there aren't shared hosting services using MeCab library.
You need to install MeCab and php_mecab libraries.
If you can't install these libraries, try sandbox: jp_kakasi_transliteration | drupal.org.

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

目次
---------------------

* はじめに
* インストール・設定
* 使い方
* 注意点

はじめに
---------------------

* 本モジュールは、マルチバイトから始まるファイル名をローマ字に変換して
Drupalにアップロードすることを目的としています。
(DrupalコアはUTF-8であってもASCII文字以外をアップロードされたファイル名から削除する仕様になっています。
ファイル名がマルチバイトから始まるファイルのアップロードする際に次の不具合が確認されています。
Using basename() is not locale safe | drupal.org

同様な機能を持つモジュールにTransliteration がありますが、中国語の読みに変換されてしまいますので、日本語の読みでローマ字化するためにこのモジュールを作成しました。

* 本モジュールは、日本語→ローマ字への変換に次のプログラムを利用します。
MeCab http://mecab.sourceforge.net/

* MeCabは高速であること、将来的にApache Solrへも使うことができるので、使用する環境を作れる場合はお勧めします。

* カタカナ→ローマ字変換に次のコードを利用させていただきました。
PHPでのカタカナ/ひらがなのローマ字変換 - ある1つのサンプル

インストール・設定
---------------------

1. MeCabのインストール
Debian/Ubuntu
apt-get install mecab mecab-ipadic-utf8

2. php_mecabのインストール
debian/Ubuntu
* mecab-configの追加
apt-get install libmecab-dev
* pear設定
pear channel-discover pecl.opendogs.org
pear remote-list -c opendogs
pear install opendogs/mecab-beta
* php.ini設定
次の行を追加します。
extension=mecab.so

3. jp_mecab_transliterationモジュールを有効にします。

使い方
---------------------

* 「インストール・設定」が正しく行われますと自動的にファイルアップロード時に
日本語がローマ字に変換されます。

注意点
---------------------

* ファイル名に長音「ー」が含まれている場合、空文字に置き換えます。
ex : ファイル名が「スペース.txt」の場合、「supesu.txt」となります。

* ファイル名に全角もしくは半角スペースが含まれている場合、「_」に置き換えます。

Project information

  • Created by qchan on , updated